論文の概要: Fisher-Orthogonal Projection Methods for Natural Gradient Descent with Large Batches
- arxiv url: http://arxiv.org/abs/2508.13898v1
- Date: Tue, 19 Aug 2025 15:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.970534
- Title: Fisher-Orthogonal Projection Methods for Natural Gradient Descent with Large Batches
- Title(参考訳): 大きなバッチを持つ自然勾配の沈み込みに対する水・直交射影法
- Authors: Yishun Lu, Wesley Armour,
- Abstract要約: 本稿ではFOP(Fisher-Orthogonal Projection)を提案する。これは非常に大きなバッチサイズで2階法の有効性を復元する手法である。
FOPは2つのサブバッチを利用して分散対応更新方向を構築し、勾配差の成分で平均勾配を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern GPUs are equipped with large amounts of high-bandwidth memory, enabling them to support mini-batch sizes of up to tens of thousands of training samples. However, most existing optimizers struggle to perform effectively at such a large batch size. As batch size increases, gradient noise decreases due to averaging over many samples, limiting the ability of first-order methods to escape sharp or suboptimal minima and reach the global minimum. Meanwhile, second-order methods like the natural gradient with Kronecker-Factored Approximate Curvature (KFAC) often require excessively high damping to remain stable at large batch sizes. This high damping effectively washes out the curvature information that gives these methods their advantage, reducing their performance to that of simple gradient descent. In this paper, we introduce Fisher-Orthogonal Projection (FOP), a novel technique that restores the effectiveness of the second-order method at very large batch sizes, enabling scalable training with improved generalization and faster convergence. FOP constructs a variance-aware update direction by leveraging gradients from two sub-batches, enhancing the average gradient with a component of the gradient difference that is orthogonal to the average under the Fisher-metric.
- Abstract(参考訳): 現代のGPUは大量の高帯域メモリを備えており、最大数万のトレーニングサンプルのミニバッチサイズをサポートすることができる。
しかし、既存のオプティマイザのほとんどは、このような大規模なバッチサイズで効果的に実行するのに苦労している。
バッチサイズが大きくなるにつれて、多くのサンプル平均値による勾配ノイズが減少し、シャープまたは準最適最小値から脱却し、世界最小値に達する1次メソッドの能力が制限される。
一方、Kronecker-Factored Approximate Curvature (KFAC) を用いた自然勾配(英語版)のような2次法は、大きなバッチサイズで安定させるためには、過度に高い減衰を必要とすることが多い。
この高い減衰は、これらの手法に利点を与える曲率情報を効果的に洗い出し、それらの性能を単純な勾配降下に還元する。
本稿では,FOP(Fisher-Orthogonal Projection)を提案する。これは非常に大きなバッチサイズで2階法の有効性を回復し,一般化と高速収束によるスケーラブルなトレーニングを可能にする新しい手法である。
FOPは2つのサブバッチからの勾配を利用して分散対応更新方向を構築し、フィッシャー測度の下で平均に直交する勾配差の成分で平均勾配を強化する。
関連論文リスト
- Beyond Gradient Averaging in Parallel Optimization: Improved Robustness through Gradient Agreement Filtering [36.896695278624776]
従来の分散データ-並列勾配勾配は、モデルパラメータの更新に使用されるマクロバッチを計算するために、マイクロバッチの勾配を平均化する。
本研究では,マイクログラディエント間のコサイン距離を計算し,グラディエンス分散を簡易かつ効果的に低減する手法を提案する。
従来のトレーニング手法と比較して,検証精度が最大18.2%向上するケースもある。
論文 参考訳(メタデータ) (2024-12-24T00:00:11Z) - Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods [17.006352664497122]
現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
ワーカの数が増えるにつれて、通信オーバーヘッドがデータ並列のミニバッチ勾配法における主要なボトルネックとなる。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
論文 参考訳(メタデータ) (2024-06-20T02:08:50Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Sample Efficient Reinforcement Learning with REINFORCE [10.884278019498588]
本稿では,古典的政策勾配法と広く用いられているREINFORCE推定手法について考察する。
悪い」エピソードの数を制御することによって、常にサブリニアな高い後悔の束縛を確立し、平均的後悔のグローバル収束を、アナルなサブリニアレートでほぼ確実に確立する。
これらのアルゴリズムは、よく知られたREINFORCEアルゴリズムに対して、グローバル収束とサンプル効率の最初のセットを提供し、実際にの性能をよりよく理解するのに貢献する。
論文 参考訳(メタデータ) (2020-10-22T01:02:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。