Fugu-MT 論文翻訳(概要): The Cost of Avoiding Backpropagation

論文の概要: The Cost of Avoiding Backpropagation

arxiv url: http://arxiv.org/abs/2506.21833v1
Date: Fri, 27 Jun 2025 00:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.039106
Title: The Cost of Avoiding Backpropagation
Title（参考訳）: バックプロパゲーション回避のコスト
Authors: Kunjal Panchal, Sunav Choudhary, Yuriy Brun, Hui Guan,
Abstract要約: 前向きモード自動微分(FmAD)とゼロ次最適化(ZO)は、バックプロパゲーション(BP)に代わるメモリ効率の良い代替手段として提案されている。本研究は,BP法,FmAD法,ZO法を総合的に比較した。本研究は,FmADとZOの基本的限界を強調し,メモリ制約条件下でのモデルトレーニングにおいて,チェックポイントを用いたBPを最も効果的な戦略として再確認した。
参考スコア（独自算出の注目度）: 14.302089415274187
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Forward-mode automatic differentiation (FmAD) and zero-order (ZO) optimization have been proposed as memory-efficient alternatives to backpropagation (BP) for gradient computation, especially in low-resource settings. However, their practical benefits remain unclear due to two key gaps: a lack of comparison against memory-efficient BP variants, such as activation checkpointing, and a lack of a unified theoretical analysis. This work presents a comprehensive theoretical and empirical comparison of BP, FmAD, and ZO methods. Our theoretical analysis shows that while FmAD, and ZO can reduce memory usage, they incur significant costs in accuracy, convergence speed, and computation compared to BP with checkpointing. These drawbacks worsen with larger models or constrained perturbation budgets. Empirical experiments on large language and vision-language models show that BP with checkpointing outperforms FmAD and ZO variants, including those enhanced with variance reduction, achieving up to 31.1% higher accuracy, 34.8% faster convergence, and 3.8x fewer computations at comparable memory usage. Our results highlight fundamental limitations of FmAD and ZO, and reaffirm BP with checkpointing as the most effective strategy for model training under memory-constrained settings. Our code is available at https://github.com/Astuary/The_Cost_of_Avoiding_Backpropagation.
Abstract（参考訳）: Forward-mode Automatic differentiation (FmAD) と Zero-order (ZO) の最適化は、特に低リソース環境において、勾配計算のためのバックプロパゲーション (BP) の代替として提案されている。しかし、それらの実用上の利点は、メモリ効率のよいBP変種(活性化チェックポイントなど)との比較の欠如と、統一的な理論的分析の欠如の2つの主要なギャップのために、まだ不明である。本研究は,BP法,FmAD法,ZO法を総合的に比較した。理論解析により,FmAD,ZOはメモリ使用量を減らすことができるが,精度,収束速度,計算コストは,チェックポインティングによるBPと比較して著しく低下することがわかった。これらの欠点は、より大きなモデルや制約付き摂動予算によって悪化した。大規模言語と視覚言語モデルに関する実証実験により、BPはFmADとZOの変種よりも優れており、分散の低減によって改善され、最大31.1%の精度、34.8%の高速化、および3.8倍のメモリ使用率で計算される。本研究は,FmADとZOの基本的限界を強調し,メモリ制約条件下でのモデルトレーニングにおいて,チェックポイントを用いたBPを最も効果的な戦略として再確認した。私たちのコードはhttps://github.com/Astuary/The_Cost_of_Avoiding_Backpropagationで利用可能です。

関連論文リスト

Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文参考訳（メタデータ） (2025-06-05T17:59:24Z)
Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [38.99428012275441]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文参考訳（メタデータ） (2025-06-04T20:27:17Z)
Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。 FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文参考訳（メタデータ） (2024-05-08T02:24:09Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。提案手法はRパッケージプローブに実装されている。
論文参考訳（メタデータ） (2022-09-16T19:15:50Z)
Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文参考訳（メタデータ） (2022-04-18T17:53:44Z)
On the Convergence Rate of Projected Gradient Descent for a Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。 LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文参考訳（メタデータ） (2020-05-03T00:58:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。