論文の概要: The Cost of Avoiding Backpropagation
- arxiv url: http://arxiv.org/abs/2506.21833v1
- Date: Fri, 27 Jun 2025 00:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.039106
- Title: The Cost of Avoiding Backpropagation
- Title(参考訳): バックプロパゲーション回避のコスト
- Authors: Kunjal Panchal, Sunav Choudhary, Yuriy Brun, Hui Guan,
- Abstract要約: 前向きモード自動微分(FmAD)とゼロ次最適化(ZO)は、バックプロパゲーション(BP)に代わるメモリ効率の良い代替手段として提案されている。
本研究は,BP法,FmAD法,ZO法を総合的に比較した。
本研究は,FmADとZOの基本的限界を強調し,メモリ制約条件下でのモデルトレーニングにおいて,チェックポイントを用いたBPを最も効果的な戦略として再確認した。
- 参考スコア(独自算出の注目度): 14.302089415274187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Forward-mode automatic differentiation (FmAD) and zero-order (ZO) optimization have been proposed as memory-efficient alternatives to backpropagation (BP) for gradient computation, especially in low-resource settings. However, their practical benefits remain unclear due to two key gaps: a lack of comparison against memory-efficient BP variants, such as activation checkpointing, and a lack of a unified theoretical analysis. This work presents a comprehensive theoretical and empirical comparison of BP, FmAD, and ZO methods. Our theoretical analysis shows that while FmAD, and ZO can reduce memory usage, they incur significant costs in accuracy, convergence speed, and computation compared to BP with checkpointing. These drawbacks worsen with larger models or constrained perturbation budgets. Empirical experiments on large language and vision-language models show that BP with checkpointing outperforms FmAD and ZO variants, including those enhanced with variance reduction, achieving up to 31.1% higher accuracy, 34.8% faster convergence, and 3.8x fewer computations at comparable memory usage. Our results highlight fundamental limitations of FmAD and ZO, and reaffirm BP with checkpointing as the most effective strategy for model training under memory-constrained settings. Our code is available at https://github.com/Astuary/The_Cost_of_Avoiding_Backpropagation.
- Abstract(参考訳): Forward-mode Automatic differentiation (FmAD) と Zero-order (ZO) の最適化は、特に低リソース環境において、勾配計算のためのバックプロパゲーション (BP) の代替として提案されている。
しかし、それらの実用上の利点は、メモリ効率のよいBP変種(活性化チェックポイントなど)との比較の欠如と、統一的な理論的分析の欠如の2つの主要なギャップのために、まだ不明である。
本研究は,BP法,FmAD法,ZO法を総合的に比較した。
理論解析により,FmAD,ZOはメモリ使用量を減らすことができるが,精度,収束速度,計算コストは,チェックポインティングによるBPと比較して著しく低下することがわかった。
これらの欠点は、より大きなモデルや制約付き摂動予算によって悪化した。
大規模言語と視覚言語モデルに関する実証実験により、BPはFmADとZOの変種よりも優れており、分散の低減によって改善され、最大31.1%の精度、34.8%の高速化、および3.8倍のメモリ使用率で計算される。
本研究は,FmADとZOの基本的限界を強調し,メモリ制約条件下でのモデルトレーニングにおいて,チェックポイントを用いたBPを最も効果的な戦略として再確認した。
私たちのコードはhttps://github.com/Astuary/The_Cost_of_Avoiding_Backpropagationで利用可能です。
関連論文リスト
- Kinetics: Rethinking Test-Time Scaling Laws [18.325591438335007]
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
論文 参考訳(メタデータ) (2025-06-05T17:59:24Z) - Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。
FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。
本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T02:24:09Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。