論文の概要: DAF: An Efficient End-to-End Dynamic Activation Framework for on-Device DNN Training
- arxiv url: http://arxiv.org/abs/2507.07149v1
- Date: Wed, 09 Jul 2025 08:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.14895
- Title: DAF: An Efficient End-to-End Dynamic Activation Framework for on-Device DNN Training
- Title(参考訳): DAF: デバイス上でのDNNトレーニングのための効率的なエンドツーエンド動的アクティベーションフレームワーク
- Authors: Renyuan Liu, Yuyang Leng, Kaiyan Liu, Shaohan Hu, Chun-Fu, Chen, Peijun Zhao, Heechul Yun, Shuochao Yao,
- Abstract要約: システムレベルの最適化を通じて、スケーラブルで効率的なデバイス上でのトレーニングを可能にする動的アクティベーションフレームワーク(DAF)を導入する。
DAFは、主要なシステムのボトルネックに対処することで、メモリと時間効率の動的量子化トレーニングを実現する。
組み込みプラットフォームとモバイルプラットフォームにわたるさまざまなディープラーニングモデルの評価によると、メモリ使用量の削減に22.9倍、スピードアップに32倍の3.2倍となる。
- 参考スコア(独自算出の注目度): 41.09085549544767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in on-device training for deep neural networks have underscored the critical need for efficient activation compression to overcome the memory constraints of mobile and edge devices. As activations dominate memory usage during training and are essential for gradient computation, compressing them without compromising accuracy remains a key research challenge. While existing methods for dynamic activation quantization promise theoretical memory savings, their practical deployment is impeded by system-level challenges such as computational overhead and memory fragmentation. To address these challenges, we introduce DAF, a Dynamic Activation Framework that enables scalable and efficient on-device training through system-level optimizations. DAF achieves both memory- and time-efficient dynamic quantization training by addressing key system bottlenecks. It develops hybrid reduction operations tailored to the memory hierarchies of mobile and edge SoCs, leverages collaborative CPU-GPU bit-packing for efficient dynamic quantization, and implements an importance-aware paging memory management scheme to reduce fragmentation and support dynamic memory adjustments. These optimizations collectively enable DAF to achieve substantial memory savings and speedup without compromising model training accuracy. Evaluations on various deep learning models across embedded and mobile platforms demonstrate up to a $22.9\times$ reduction in memory usage and a $3.2\times$ speedup, making DAF a scalable and practical solution for resource-constrained environments.
- Abstract(参考訳): ディープニューラルネットワークのオンデバイストレーニングの最近の進歩は、モバイルデバイスとエッジデバイスのメモリ制約を克服するために、効率的なアクティベーション圧縮の必要性を強調している。
アクティベーションがトレーニング中のメモリ使用量を支配し、勾配計算に不可欠なため、精度を損なうことなく圧縮することが重要な研究課題である。
動的アクティベーション量子化の既存の手法は理論的なメモリ節約を約束するが、その実践的展開は計算オーバーヘッドやメモリ断片化といったシステムレベルの課題によって妨げられる。
これらの課題に対処するために、システムレベルの最適化を通じてスケーラブルで効率的なデバイス上でのトレーニングを可能にするDynamic Activation FrameworkであるDAFを紹介します。
DAFは、主要なシステムのボトルネックに対処することで、メモリと時間効率の動的量子化トレーニングを実現する。
モバイルおよびエッジSoCのメモリ階層に合わせたハイブリッドリダクション操作を開発し、協調CPU-GPUビットパッキングを活用して効率的な動的量子化を実現し、フラグメンテーションの削減と動的メモリ調整をサポートするために重要対応のページングメモリ管理スキームを実装している。
これらの最適化により、DAFはモデルトレーニングの精度を損なうことなく、メモリの大幅な節約と高速化を実現することができる。
組み込みおよびモバイルプラットフォームにおける様々なディープラーニングモデルの評価は、メモリ使用量の削減に22.9\times$と3.2\times$のスピードアップを示し、DAFはリソース制約のある環境に対するスケーラブルで実用的なソリューションである。
関連論文リスト
- Hardware-software co-exploration with racetrack memory based in-memory computing for CNN inference in embedded systems [54.045712360156024]
レーストラックメモリは、データ密度の高い製造を可能にする不揮発性技術である。
メモリセルを持つインメモリ演算回路は、メモリ密度と電力効率の両方に影響を与える。
レーストラックメモリに最適化された効率的なインメモリ畳み込みニューラルネットワーク(CNN)アクセラレータを提案する。
論文 参考訳(メタデータ) (2025-07-02T07:29:53Z) - SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity [30.260783715373382]
テスト時間適応(TTA)は、未ラベルのターゲットデータにオンラインで適応することで、ディープモデルの性能を向上させるために出現している。
しかし、特にリソース制約のある端末におけるメモリコストは、ほとんどの後方プロパゲーションベースのTTAメソッドの効果的な展開を妨げる。
メモリの制約に対処するため,SURGEONを導入する。
論文 参考訳(メタデータ) (2025-03-26T09:27:09Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - FedMef: Towards Memory-efficient Federated Dynamic Pruning [42.07105095641134]
フェデレートラーニング(FL)は、データの機密性を優先しながら、分散トレーニングを促進する。
リソース制約のあるデバイスへのその応用は、ディープラーニングモデルをトレーニングするための計算とメモリリソースの要求が高いため、難しい。
我々は,新しい,メモリ効率の高い動的刈取フレームワークであるFedMefを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:54:36Z) - CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning [8.339901980070616]
リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。
過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:57:01Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。