論文の概要: CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning
- arxiv url: http://arxiv.org/abs/2305.03148v2
- Date: Fri, 20 Oct 2023 18:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:45:15.125090
- Title: CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning
- Title(参考訳): CAMEL: デバイス上での効率的な学習のためのAIモデルと組み込みDRAMの共同設計
- Authors: Sai Qian Zhang, Thierry Tambe, Nestor Cuevas, Gu-Yeon Wei, David
Brooks
- Abstract要約: リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。
過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
- 参考スコア(独自算出の注目度): 8.339901980070616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device learning allows AI models to adapt to user data, thereby enhancing
service quality on edge platforms. However, training AI on resource-limited
devices poses significant challenges due to the demanding computing workload
and the substantial memory consumption and data access required by deep neural
networks (DNNs). To address these issues, we propose utilizing embedded dynamic
random-access memory (eDRAM) as the primary storage medium for transient
training data. In comparison to static random-access memory (SRAM), eDRAM
provides higher storage density and lower leakage power, resulting in reduced
access cost and power leakage. Nevertheless, to maintain the integrity of the
stored data, periodic power-hungry refresh operations could potentially degrade
system performance.
To minimize the occurrence of expensive eDRAM refresh operations, it is
beneficial to shorten the lifetime of stored data during the training process.
To achieve this, we adopt the principles of algorithm and hardware co-design,
introducing a family of reversible DNN architectures that effectively decrease
data lifetime and storage costs throughout training. Additionally, we present a
highly efficient on-device training engine named \textit{CAMEL}, which
leverages eDRAM as the primary on-chip memory. This engine enables efficient
on-device training with significantly reduced memory usage and off-chip DRAM
traffic while maintaining superior training accuracy. We evaluate our CAMEL
system on multiple DNNs with different datasets, demonstrating a $2.5\times$
speedup of the training process and $2.8\times$ training energy savings than
the other baseline hardware platforms.
- Abstract(参考訳): オンデバイス学習は、aiモデルがユーザデータに適応できるようにし、エッジプラットフォームにおけるサービス品質を向上させる。
しかし、リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスが大きな課題となっている。
そこで本研究では,過渡訓練データの主要記憶媒体として組込み動的ランダムアクセスメモリ(edram)の利用を提案する。
静的ランダムアクセスメモリ(SRAM)と比較して、eDRAMはより高いストレージ密度と低いリーク電力を提供し、アクセスコストと電力リークを低減させる。
それでも、保存されたデータの整合性を維持するために、周期的なパワーハングリーリフレッシュ操作はシステム性能を低下させる可能性がある。
高価なeDRAMリフレッシュ操作の発生を最小限に抑えるため、トレーニングプロセス中に保存されたデータの寿命を短縮することが有用である。
これを実現するために、我々はアルゴリズムとハードウェアの共同設計の原則を採用し、トレーニングを通してデータ寿命とストレージコストを効果的に削減する可逆的なDNNアーキテクチャのファミリーを導入した。
さらに,eDRAMをプライマリオンチップメモリとして活用した,高効率なオンデバイストレーニングエンジン「textit{CAMEL}」を提案する。
このエンジンは、トレーニング精度を向上しつつ、メモリ使用量とチップ外DRAMトラフィックを大幅に削減したデバイス上での効率的なトレーニングを可能にする。
我々は、異なるデータセットを持つ複数のDNN上でCAMELシステムを評価し、トレーニングプロセスの2.5\times$スピードアップと2.8\times$トレーニングエネルギセーブを他のベースラインハードウェアプラットフォームよりも実証した。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Evaluation of STT-MRAM as a Scratchpad for Training in ML Accelerators [9.877596714655096]
深層ニューラルネットワーク(DNN)のトレーニングは非常にメモリ集約的なプロセスである。
Spin-Transfer-Torque MRAM (STT-MRAM) は、加速器の訓練に望ましいいくつかの特性を提供する。
MRAMはシステムレベルのエネルギーを最大15-22倍改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T20:36:48Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - SmartSAGE: Training Large-scale Graph Neural Networks using In-Storage
Processing Architectures [0.7792020418343023]
グラフニューラルネットワーク(GNN)は、各オブジェクト(グラフノード)の表現と、異なるオブジェクト間の関係の両方を学ぶことによって、特徴を抽出することができる。
その強みにもかかわらず、これらのアルゴリズムを本番環境で利用することは、グラフノードとエッジの数が数十億から数十億の規模になるため、いくつかの課題に直面します。
本研究では,現在最先端の大規模GNN学習アルゴリズムであるGraphAGESの詳細な特徴付けを行う。
キャパシティ最適化NVMを用いたストレージの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-05-10T07:25:30Z) - GradPIM: A Practical Processing-in-DRAM Architecture for Gradient
Descent [17.798991516056454]
本稿では,ディープニューラルネットワークトレーニングのパラメータ更新を高速化するメモリ内処理アーキテクチャGradPIMを提案する。
DDR4 SDRAMをバンクグループ並列性に拡張することで、ハードウェアコストと性能の観点から、PIMモジュールでの動作設計を効率化できる。
論文 参考訳(メタデータ) (2021-02-15T12:25:26Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - $DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device
Multi-Domain Learning [30.53018068935323]
アクティベーションストレージに使用される大きなメモリは、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックである。
本稿では,メモリ効率の高いマルチドメイン学習手法であるDeep Additive Attention Adaptionを提案する。
我々は、複数のデータセットに対して、最先端の手法に対して$DA3$を検証し、精度とトレーニング時間の両方において良好な改善を示す。
論文 参考訳(メタデータ) (2020-12-02T18:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。