Fugu-MT 論文翻訳(概要): ElasticZO: A Memory-Efficient On-Device Learning with Combined Zeroth- and First-Order Optimization

論文の概要: ElasticZO: A Memory-Efficient On-Device Learning with Combined Zeroth- and First-Order Optimization

arxiv url: http://arxiv.org/abs/2501.04287v1
Date: Wed, 08 Jan 2025 05:25:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.557842
Title: ElasticZO: A Memory-Efficient On-Device Learning with Combined Zeroth- and First-Order Optimization
Title（参考訳）: ElasticZO: ゼロとファーストの最適化を組み合わせたメモリ効率の良いオンデバイス学習
Authors: Keisuke Sugiura, Hiroki Matsutani,
Abstract要約: 完全精度および8ビット量子化深層ニューラルネットワーク(DNN)のためのZO-based On-Device Learning (ODL)法を提案する。 ElasticZOは0.072-1.7%のメモリオーバーヘッドで5.2-9.5%の精度を実現し、微調整タスクと完全なトレーニングを処理できる。 ElasticZO-INT8は、整数クロスエントロピー損失値から量子化されたZO勾配を計算する新しい方法を導入することで、整数演算のみのZOベースのトレーニングを初めて達成した。
参考スコア（独自算出の注目度）: 0.9444784653236158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zeroth-order (ZO) optimization is being recognized as a simple yet powerful alternative to standard backpropagation (BP)-based training. Notably, ZO optimization allows for training with only forward passes and (almost) the same memory as inference, making it well-suited for edge devices with limited computing and memory resources. In this paper, we propose ZO-based on-device learning (ODL) methods for full-precision and 8-bit quantized deep neural networks (DNNs), namely ElasticZO and ElasticZO-INT8. ElasticZO lies in the middle between pure ZO- and pure BP-based approaches, and is based on the idea to employ BP for the last few layers and ZO for the remaining layers. ElasticZO-INT8 achieves integer arithmetic-only ZO-based training for the first time, by incorporating a novel method for computing quantized ZO gradients from integer cross-entropy loss values. Experimental results on the classification datasets show that ElasticZO effectively addresses the slow convergence of vanilla ZO and shrinks the accuracy gap to BP-based training. Compared to vanilla ZO, ElasticZO achieves 5.2-9.5% higher accuracy with only 0.072-1.7% memory overhead, and can handle fine-tuning tasks as well as full training. ElasticZO-INT8 further reduces the memory usage and training time by 1.46-1.60x and 1.38-1.42x without compromising the accuracy. These results demonstrate a better tradeoff between accuracy and training cost compared to pure ZO- and BP-based approaches, and also highlight the potential of ZO optimization in on-device learning.
Abstract（参考訳）: ゼロオーダー(ZO)最適化は、標準バックプロパゲーション(BP)ベースのトレーニングに代わる、シンプルだが強力な代替手段として認識されている。特にZO最適化では、フォワードパスと(ほとんど)推論と同じメモリでトレーニングが可能で、コンピューティングとメモリリソースに制限のあるエッジデバイスに適しています。本稿では,フル精度および8ビット量子化深層ニューラルネットワーク(DNN)のためのZO-based on-device learning (ODL)法,すなわちElasticZOとElasticZO-INT8を提案する。 ElasticZOは純粋なZOと純粋なBPベースのアプローチの中間に位置し、最後の数層にBPを、残りの層にZOを採用するというアイデアに基づいている。 ElasticZO-INT8は、整数クロスエントロピー損失値から量子化されたZO勾配を計算する新しい方法を導入することで、整数演算のみのZOベースのトレーニングを初めて達成した。分類データセットによる実験結果から、ElasticZOはバニラZOの緩やかな収束に効果的に対応し、精度ギャップをBPベースのトレーニングに縮めることが示された。バニラZOと比較して、ElasticZOは0.072-1.7%のメモリオーバーヘッドで5.2-9.5%高い精度を達成し、微調整タスクと完全なトレーニングを処理できる。 ElasticZO-INT8はメモリ使用時間とトレーニング時間を1.46-1.60xと1.38-1.42xに短縮する。これらの結果は、純粋なZOとBPベースのアプローチよりも精度とトレーニングコストのトレードオフが優れていることを示し、デバイス上での学習におけるZO最適化の可能性を強調している。

関連論文リスト

The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
YOSO: You-Only-Sample-Once via Compressed Sensing for Graph Neural Network Training [9.02251811867533]
YOSO(You-Only-Sample-Once)は、予測精度を維持しながら効率的なトレーニングを実現するアルゴリズムである。 YOSOは、正規直交基底計算のような従来の圧縮センシング(CS)法で高価な計算を避けるだけでなく、高い確率精度の保持も保証している。
論文参考訳（メタデータ） (2024-11-08T16:47:51Z)
AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。 GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。 LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed) Neural Networks [15.188785164091987]
後方伝播(BP)は、ニューラルネットワークトレーニングの勾配を計算するために広く使われている。自動微分をサポートするハードウェアやソフトウェアリソースが不足しているため、エッジデバイス上でBPを実装するのは難しい。本稿では,現実的なニューラルネットワークを学習するためには,前方伝播のみを必要とする,完全にBPフリーなフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-18T23:56:50Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文参考訳（メタデータ） (2023-05-23T04:12:55Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Efficient training of physics-informed neural networks via importance sampling [2.9005223064604078]
Physics-In Neural Networks(PINN)は、偏微分方程式(PDE)によって制御されるシステムを計算するために訓練されているディープニューラルネットワークのクラスである。重要サンプリング手法により,PINN訓練の収束挙動が改善されることが示唆された。
論文参考訳（メタデータ） (2021-04-26T02:45:10Z)
FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。 FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文参考訳（メタデータ） (2020-12-24T05:24:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。