論文の概要: CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning
- arxiv url: http://arxiv.org/abs/2305.03148v1
- Date: Thu, 4 May 2023 20:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:04:39.953282
- Title: CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning
- Title(参考訳): CAMEL: デバイス上での効率的な学習のためのAIモデルと組み込みDRAMの共同設計
- Authors: Sai Qian Zhang, Thierry Tambe, Nestor Cuevas, Gu-Yeon Wei, David
Brooks
- Abstract要約: IoT(Internet of Things)は、エッジデバイス上で生成される膨大な量のデータを、AIアルゴリズムを使って処理する。
デバイス上での学習により、エッジプラットフォームは、AIモデルをユーザの個人データに継続的に適用し、さらにサービス品質の向上を可能にします。
トレーニングデータの主記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
- 参考スコア(独自算出の注目度): 9.872386219203413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of the Internet of Things (IoT) has resulted in a remarkable
amount of data generated on edge devices, which are often processed using AI
algorithms. On-device learning enables edge platforms to continually adapt the
AI models to user personal data and further allows for a better service
quality. However, AI training on resource-limited devices is extremely
difficult because of the intensive computing workload and the significant
amount of on-chip memory consumption exacted by deep neural networks (DNNs). To
mitigate this, we propose to use embedded dynamic random-access memory (eDRAM)
as the main storage medium of training data. Compared with static random-access
memory (SRAM), eDRAM introduces more than $2\times$ improvement on storage
density, enabling reduced off-chip memory traffic. However, to keep the stored
data intact, eDRAM is required to perform the power-hungry data refresh
operations.
eDRAM refresh can be eliminated if the data is stored for a period of time
that is shorter than the eDRAM retention time. To achieve this, we design a
novel reversible DNN architecture that enables a significantly reduced data
lifetime during the training process and removes the need for eDRAM refresh. We
further design an efficient on-device training engine, termed~\textit{CAMEL},
that uses eDRAM as the main on-chip memory. CAMEL enables the intermediate
results during training to fit fully in on-chip eDRAM arrays and completely
eliminates the off-chip DRAM traffic during the training process. We evaluate
our CAMEL system on multiple DNNs with different datasets, demonstrating a more
than $3\times$ saving on total DNN training energy consumption than the other
baselines, while achieving a similar (even better) performance in validation
accuracy.
- Abstract(参考訳): IoT(Internet of Things)の出現により、エッジデバイス上で生成される膨大な量のデータが、AIアルゴリズムを使って処理されている。
デバイス上での学習により、エッジプラットフォームは、AIモデルをユーザの個人データに継続的に適用し、さらにサービス品質を向上させることができる。
しかし、集中的な計算作業量と、ディープニューラルネットワーク(dnn)による大量のオンチップメモリ消費のために、リソース制限されたデバイスでのaiトレーニングは極めて困難である。
そこで本研究では,学習データの主記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
静的ランダムアクセスメモリ(SRAM)と比較して、eDRAMはストレージ密度を2ドル以上改善し、オフチップメモリトラフィックを削減できる。
しかし、保存したデータをそのまま保持するためには、eDRAMが電力消費データリフレッシュ操作を実行する必要がある。
eDRAMリフレッシュは、データがeDRAM保持時間よりも短い期間保存されている場合、除去することができる。
そこで我々は,eDRAMリフレッシュの必要性を解消し,トレーニングプロセス中にデータ寿命を大幅に短縮できる新しい可逆的DNNアーキテクチャを設計する。
さらに,eDRAMをメインオンチップメモリとする,効率的なオンデバイストレーニングエンジンを設計する。
CAMELは、トレーニング中の中間結果をオンチップのeDRAMアレイに完全に適合させ、トレーニングプロセス中にオフチップのDRAMトラフィックを完全に排除する。
我々は、異なるデータセットを持つ複数のDNN上でCAMELシステムを評価し、他のベースラインと比較して、DNNのトレーニングエネルギー総消費量を3ドル以上削減し、検証精度が類似した(さらに良い)性能を実現した。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators [9.877596714655096]
深層ニューラルネットワーク(DNN)のトレーニングは非常にメモリ集約的なプロセスである。
Spin-Transfer-Torque MRAM (STT-MRAM) は、加速器の訓練に望ましいいくつかの特性を提供する。
MRAMはシステムレベルのエネルギーを最大15-22倍改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T20:36:48Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - SmartSAGE: Training Large-scale Graph Neural Networks using In-Storage
Processing Architectures [0.7792020418343023]
グラフニューラルネットワーク(GNN)は、各オブジェクト(グラフノード)の表現と、異なるオブジェクト間の関係の両方を学ぶことによって、特徴を抽出することができる。
その強みにもかかわらず、これらのアルゴリズムを本番環境で利用することは、グラフノードとエッジの数が数十億から数十億の規模になるため、いくつかの課題に直面します。
本研究では,現在最先端の大規模GNN学習アルゴリズムであるGraphAGESの詳細な特徴付けを行う。
キャパシティ最適化NVMを用いたストレージの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-05-10T07:25:30Z) - GradPIM: A Practical Processing-in-DRAM Architecture for Gradient
Descent [17.798991516056454]
本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化するメモリ内処理アーキテクチャGradPIMを提案する。
DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。
論文 参考訳(メタデータ) (2021-02-15T12:25:26Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - $DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device
Multi-Domain Learning [30.53018068935323]
アクティベーションストレージに使用される大きなメモリは、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックである。
本稿では,メモリ効率の高いマルチドメイン学習手法であるDeep Additive Attention Adaptionを提案する。
我々は、複数のデータセットに対して、最先端の手法に対して$DA3$を検証し、精度とトレーニング時間の両方において良好な改善を示す。
論文 参考訳(メタデータ) (2020-12-02T18:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。