論文の概要: The Implicit Bias of Steepest Descent with Mini-batch Stochastic Gradient
- arxiv url: http://arxiv.org/abs/2602.11557v1
- Date: Thu, 12 Feb 2026 04:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.637201
- Title: The Implicit Bias of Steepest Descent with Mini-batch Stochastic Gradient
- Title(参考訳): Mini-batch Stochastic Gradient を用いた静注時の難治性バイアスの検討
- Authors: Jichu Li, Xuan Tang, Difan Zou,
- Abstract要約: 本研究では, バッチサイズ, 運動量, 分散の低減が, 最大張力挙動と収束率の制限をいかに形成するかを検討した。
運動量なしでは、収束は大きなバッチでのみ発生し、バッチ依存のマージンギャップを生じるが、フルバッチ収束速度は得られないことを示す。
- 参考スコア(独自算出の注目度): 32.97211471008323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A variety of widely used optimization methods like SignSGD and Muon can be interpreted as instances of steepest descent under different norm-induced geometries. In this work, we study the implicit bias of mini-batch stochastic steepest descent in multi-class classification, characterizing how batch size, momentum, and variance reduction shape the limiting max-margin behavior and convergence rates under general entry-wise and Schatten-$p$ norms. We show that without momentum, convergence only occurs with large batches, yielding a batch-dependent margin gap but the full-batch convergence rate. In contrast, momentum enables small-batch convergence through a batch-momentum trade-off, though it slows convergence. This approach provides fully explicit, dimension-free rates that improve upon prior results. Moreover, we prove that variance reduction can recover the exact full-batch implicit bias for any batch size, albeit at a slower convergence rate. Finally, we further investigate the batch-size-one steepest descent without momentum, and reveal its convergence to a fundamentally different bias via a concrete data example, which reveals a key limitation of purely stochastic updates. Overall, our unified analysis clarifies when stochastic optimization aligns with full-batch behavior, and paves the way for perform deeper explorations of the training behavior of stochastic gradient steepest descent algorithms.
- Abstract(参考訳): SignSGDやMuonのような広く使われている最適化手法は、異なるノルム誘起測地の下で最も急勾配の例と解釈できる。
本研究では,マルチクラス分類における最小バッチ確率的急降下の暗黙バイアスについて検討し,バッチサイズ,運動量,および分散還元が,一般エントリーワイドおよびSchatten-$p$ノルムの下での最大マージン挙動と収束率の制限を如何に形成するかを特徴付ける。
運動量なしでは、収束は大きなバッチでのみ発生し、バッチ依存のマージンギャップを生じるが、フルバッチ収束速度は得られないことを示す。
対照的に運動量によって、バッチ・モーメントのトレードオフを通じて小さなバッチ収束が可能であるが、収束が遅くなる。
このアプローチは、事前の結果を改善するための、完全に明示的で次元のないレートを提供する。
さらに, 分散低減は, 収束速度が遅いにもかかわらず, 任意のバッチサイズに対して, 正確な完全バッチ陰性バイアスを回復できることを示す。
最後に、運動量のないバッチサイズ1の急降下についてさらに検討し、その収束性を具体的なデータ例を通して根本的に異なるバイアスに明らかにし、純粋に確率的な更新の鍵となる制限を明らかにした。
総合的な解析により,確率的最適化と全バッチ動作の整合性が明確化され,確率的勾配勾配勾配降下アルゴリズムの学習行動のより深い探索を行う方法が明らかにされた。
関連論文リスト
- Revisiting Convergence: Shuffling Complexity Beyond Lipschitz Smoothness [50.78508362183774]
シャッフル型勾配法はその単純さと迅速な経験的性能のために実践的に好まれる。
リプシッツ条件は一般的な機械学習スキームでは満たされないことが多い。
論文 参考訳(メタデータ) (2025-07-11T15:36:48Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Variance Regularization for Accelerating Stochastic Optimization [14.545770519120898]
ミニバッチ勾配に隠れた統計情報を利用してランダムな誤りの蓄積を低減する普遍原理を提案する。
これは、ミニバッチのばらつきに応じて学習率を正規化することで達成される。
論文 参考訳(メタデータ) (2020-08-13T15:34:01Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Amortized variance reduction for doubly stochastic objectives [17.064916635597417]
複素確率モデルにおける近似推論は二重目的関数の最適化を必要とする。
現在のアプローチでは、ミニバッチがサンプリング性にどのように影響するかを考慮せず、結果として準最適分散が減少する。
本稿では,認識ネットワークを用いて各ミニバッチに対して最適な制御変数を安価に近似する手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。