論文の概要: ElasticZO: A Memory-Efficient On-Device Learning with Combined Zeroth- and First-Order Optimization
- arxiv url: http://arxiv.org/abs/2501.04287v1
- Date: Wed, 08 Jan 2025 05:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:30.604360
- Title: ElasticZO: A Memory-Efficient On-Device Learning with Combined Zeroth- and First-Order Optimization
- Title(参考訳): ElasticZO: ゼロとファーストの最適化を組み合わせたメモリ効率の良いオンデバイス学習
- Authors: Keisuke Sugiura, Hiroki Matsutani,
- Abstract要約: 完全精度および8ビット量子化深層ニューラルネットワーク(DNN)のためのZO-based On-Device Learning (ODL)法を提案する。
ElasticZOは0.072-1.7%のメモリオーバーヘッドで5.2-9.5%の精度を実現し、微調整タスクと完全なトレーニングを処理できる。
ElasticZO-INT8は、整数クロスエントロピー損失値から量子化されたZO勾配を計算する新しい方法を導入することで、整数演算のみのZOベースのトレーニングを初めて達成した。
- 参考スコア(独自算出の注目度): 0.9444784653236158
- License:
- Abstract: Zeroth-order (ZO) optimization is being recognized as a simple yet powerful alternative to standard backpropagation (BP)-based training. Notably, ZO optimization allows for training with only forward passes and (almost) the same memory as inference, making it well-suited for edge devices with limited computing and memory resources. In this paper, we propose ZO-based on-device learning (ODL) methods for full-precision and 8-bit quantized deep neural networks (DNNs), namely ElasticZO and ElasticZO-INT8. ElasticZO lies in the middle between pure ZO- and pure BP-based approaches, and is based on the idea to employ BP for the last few layers and ZO for the remaining layers. ElasticZO-INT8 achieves integer arithmetic-only ZO-based training for the first time, by incorporating a novel method for computing quantized ZO gradients from integer cross-entropy loss values. Experimental results on the classification datasets show that ElasticZO effectively addresses the slow convergence of vanilla ZO and shrinks the accuracy gap to BP-based training. Compared to vanilla ZO, ElasticZO achieves 5.2-9.5% higher accuracy with only 0.072-1.7% memory overhead, and can handle fine-tuning tasks as well as full training. ElasticZO-INT8 further reduces the memory usage and training time by 1.46-1.60x and 1.38-1.42x without compromising the accuracy. These results demonstrate a better tradeoff between accuracy and training cost compared to pure ZO- and BP-based approaches, and also highlight the potential of ZO optimization in on-device learning.
- Abstract(参考訳): ゼロオーダー(ZO)最適化は、標準バックプロパゲーション(BP)ベースのトレーニングに代わる、シンプルだが強力な代替手段として認識されている。
特にZO最適化では、フォワードパスと(ほとんど)推論と同じメモリでトレーニングが可能で、コンピューティングとメモリリソースに制限のあるエッジデバイスに適しています。
本稿では,フル精度および8ビット量子化深層ニューラルネットワーク(DNN)のためのZO-based on-device learning (ODL)法,すなわちElasticZOとElasticZO-INT8を提案する。
ElasticZOは純粋なZOと純粋なBPベースのアプローチの中間に位置し、最後の数層にBPを、残りの層にZOを採用するというアイデアに基づいている。
ElasticZO-INT8は、整数クロスエントロピー損失値から量子化されたZO勾配を計算する新しい方法を導入することで、整数演算のみのZOベースのトレーニングを初めて達成した。
分類データセットによる実験結果から、ElasticZOはバニラZOの緩やかな収束に効果的に対応し、精度ギャップをBPベースのトレーニングに縮めることが示された。
バニラZOと比較して、ElasticZOは0.072-1.7%のメモリオーバーヘッドで5.2-9.5%高い精度を達成し、微調整タスクと完全なトレーニングを処理できる。
ElasticZO-INT8はメモリ使用時間とトレーニング時間を1.46-1.60xと1.38-1.42xに短縮する。
これらの結果は、純粋なZOとBPベースのアプローチよりも精度とトレーニングコストのトレードオフが優れていることを示し、デバイス上での学習におけるZO最適化の可能性を強調している。
関連論文リスト
- YOSO: You-Only-Sample-Once via Compressed Sensing for Graph Neural Network Training [9.02251811867533]
YOSO(You-Only-Sample-Once)は、予測精度を維持しながら効率的なトレーニングを実現するアルゴリズムである。
YOSOは、正規直交基底計算のような従来の圧縮センシング(CS)法で高価な計算を避けるだけでなく、高い確率精度の保持も保証している。
論文 参考訳(メタデータ) (2024-11-08T16:47:51Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed)
Neural Networks [15.188785164091987]
後方伝播(BP)は、ニューラルネットワークトレーニングの勾配を計算するために広く使われている。
自動微分をサポートするハードウェアやソフトウェアリソースが不足しているため、エッジデバイス上でBPを実装するのは難しい。
本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする,完全にBPフリーなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T23:56:50Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Efficient training of physics-informed neural networks via importance
sampling [2.9005223064604078]
Physics-In Neural Networks(PINN)は、偏微分方程式(PDE)によって制御されるシステムを計算するために訓練されているディープニューラルネットワークのクラスである。
重要サンプリング手法により,PINN訓練の収束挙動が改善されることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T02:45:10Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。