Fugu-MT 論文翻訳(概要): Full-Stack Optimization for CAM-Only DNN Inference

論文の概要: Full-Stack Optimization for CAM-Only DNN Inference

arxiv url: http://arxiv.org/abs/2401.12630v1
Date: Tue, 23 Jan 2024 10:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 16:06:39.085775
Title: Full-Stack Optimization for CAM-Only DNN Inference
Title（参考訳）: CAM専用DNN推論のためのフルスタック最適化
Authors: Jo\~ao Paulo C. de Lima, Asif Ali Khan, Luigi Carro and Jeronimo Castrillon
Abstract要約: 本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
参考スコア（独自算出の注目度）: 2.0837295518447934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The accuracy of neural networks has greatly improved across various domains over the past years. Their ever-increasing complexity, however, leads to prohibitively high energy demands and latency in von Neumann systems. Several computing-in-memory (CIM) systems have recently been proposed to overcome this, but trade-offs involving accuracy, hardware reliability, and scalability for large models remain a challenge. Additionally, for some CIM designs, the activation movement still requires considerable time and energy. This paper explores the combination of algorithmic optimizations for ternary weight neural networks and associative processors (APs) implemented using racetrack memory (RTM). We propose a novel compilation flow to optimize convolutions on APs by reducing their arithmetic intensity. By leveraging the benefits of RTM-based APs, this approach substantially reduces data transfers within the memory while addressing accuracy, energy efficiency, and reliability concerns. Concretely, our solution improves the energy efficiency of ResNet-18 inference on ImageNet by 7.5x compared to crossbar in-memory accelerators while retaining software accuracy.
Abstract（参考訳）: ニューラルネットワークの精度は過去数年間、さまざまな領域で大幅に改善されている。しかし、これらの複雑さはフォン・ノイマン系のエネルギー需要と遅延を極端に高めている。いくつかのCIM(Computer-in-Memory)システムがこの問題を克服するために提案されているが、大規模モデルの正確性、ハードウェアの信頼性、スケーラビリティに関するトレードオフは依然として課題である。さらに、いくつかのCIM設計では、アクティベーション運動にはかなりの時間とエネルギーが必要である。本稿では,3次重み付きニューラルネットワークのアルゴリズム最適化と,レーストラックメモリ(RTM)を用いた連想プロセッサ(AP)の組み合わせについて検討する。演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。 RTMベースのAPの利点を活用することで、精度、エネルギー効率、信頼性に対処しながら、メモリ内のデータ転送を大幅に削減する。具体的には,imagenetにおけるresnet-18推論のエネルギー効率を,ソフトウェア精度を維持しつつクロスバーインメモリアクセラレータと比較して7.5倍向上させる。

関連論文リスト

Memory-Free and Parallel Computation for Quantized Spiking Neural Networks [12.227968342252026]
量子スパイキングニューラルネットワーク(QSNN)は、優れたエネルギー効率を提供し、リソース制限されたエッジデバイスへのデプロイに適している。ビット幅の制限と膜電位は、顕著な性能低下をもたらす。膜電位を直接記憶せずにすべての履歴情報をキャプチャするメモリフリー量子化手法を提案する。
論文参考訳（メタデータ） (2025-02-25T10:34:25Z)
USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文参考訳（メタデータ） (2024-12-18T11:04:58Z)
SpiDR: A Reconfigurable Digital Compute-in-Memory Spiking Neural Network Accelerator for Event-based Perception [8.968583287058959]
スパイキングニューラルネットワーク(SNN)は、ダイナミックビジョンセンサー(DVS)によって生成された非同期時間データを効率的に処理する方法を提供する。既存のSNNアクセラレータは、多様なニューロンモデル、ビット精度、ネットワークサイズへの適応性の制限に悩まされている。本稿では,CIM (Citical Compute-in-Memory) SNNアクセラレーターを,拡張性および再構成性を備えたチップ名として提案する。
論文参考訳（メタデータ） (2024-11-05T06:59:02Z)
TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。 TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文参考訳（メタデータ） (2024-05-08T20:53:38Z)
LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-26T05:23:11Z)
Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。有望な解決策の1つは、アナログコンピューティングを再考することである。ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文参考訳（メタデータ） (2023-11-13T08:59:01Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文参考訳（メタデータ） (2023-04-25T05:44:50Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
Towards Memory-Efficient Neural Networks via Multi-Level in situ Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-25T18:50:24Z)
Online Training of Spiking Recurrent Neural Networks with Phase-Change Memory Synapses [1.9809266426888898]
専用のニューロモルフィックハードウェア上でのスパイクニューラルネットワーク(RNN)のトレーニングは、依然としてオープンな課題である。本稿では,PCMデバイスモデルに基づく差分構造アレイのシミュレーションフレームワークを提案する。我々は,最近提案されたe-prop学習規則を用いて,提案したシミュレーションフレームワークに重みをエミュレートしたスパイクRNNを訓練する。
論文参考訳（メタデータ） (2021-08-04T01:24:17Z)
From DNNs to GANs: Review of efficient hardware architectures for deep learning [0.0]
ニューラルネットワークとディープラーニングが現在の研究パラダイムに影響を与え始めている。 DSPプロセッサは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成的敵ネットワーク操作を実行することができない。異なるアルゴリズムは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成対向ネットワークにおける高速なパフォーマンスに適合するDSPプロセッサを設計するために適合している。
論文参考訳（メタデータ） (2021-06-06T13:23:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。