論文の概要: Never Saddle for Reparameterized Steepest Descent as Mirror Flow
- arxiv url: http://arxiv.org/abs/2603.02064v1
- Date: Mon, 02 Mar 2026 16:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.982328
- Title: Never Saddle for Reparameterized Steepest Descent as Mirror Flow
- Title(参考訳): ミラーフローとしての再パラメータ化ステアプタイズのためのNever Saddle
- Authors: Tom Jacobs, Chao Zhou, Rebekka Burkholz,
- Abstract要約: 我々は、統一理論の枠組みとして、最も急なミラーフローを導入する。
このフレームワークは、最適化幾何が学習力学、暗黙のバイアス、疎さをいかに支配するかを明らかにする。
より急降下がサドルポイントエスケープと特徴学習の両方を促進することを示す。
- 参考スコア(独自算出の注目度): 28.51235517852531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does the choice of optimization algorithm shape a model's ability to learn features? To address this question for steepest descent methods --including sign descent, which is closely related to Adam --we introduce steepest mirror flows as a unifying theoretical framework. This framework reveals how optimization geometry governs learning dynamics, implicit bias, and sparsity and it provides two explanations for why Adam and AdamW often outperform SGD in fine-tuning. Focusing on diagonal linear networks and deep diagonal linear reparameterizations (a simplified proxy for attention), we show that steeper descent facilitates both saddle-point escape and feature learning. In contrast, gradient descent requires unrealistically large learning rates to escape saddles, an uncommon regime in fine-tuning. Empirically, we confirm that saddle-point escape is a central challenge in fine-tuning. Furthermore, we demonstrate that decoupled weight decay, as in AdamW, stabilizes feature learning by enforcing novel balance equations. Together, these results highlight two mechanisms how steepest descent can aid modern optimization.
- Abstract(参考訳): 最適化アルゴリズムの選択は、機能を学ぶモデルの能力をどのように形成しますか?
この問題に対処するため、アダムと密接に関係している標識降下を含む最も急勾配降下法を統一理論の枠組みとして導入した。
このフレームワークは、最適化幾何が学習力学、暗黙のバイアス、空間性をどのように支配するかを明らかにし、AdamとAdamWが微調整でSGDをよく上回る理由を2つの説明を提供する。
対角線ネットワークと深対角線リパラメトリゼーション(注意の簡易なプロキシ)に着目し,より急降下がサドルポイントエスケープと特徴学習の両方を促進することを示す。
対照的に、勾配降下は、微調整において珍しい体制であるサドルから逃れるために、非現実的に大きな学習速度を必要とする。
実験により,サドルポイントエスケープが微調整における中心的な課題であることを確認した。
さらに,AdamWのような脱カップリング重み崩壊は,新しいバランス方程式を強制することによって特徴学習を安定化させることを示した。
これらの結果は、最も急降下が近代的な最適化にどのように役立つかという2つのメカニズムを浮き彫りにした。
関連論文リスト
- HAM: A Hyperbolic Step to Regulate Implicit Bias [14.701241300621648]
我々は、HAM(Hyperbolic Minimization)がオーバーヘッドステップと新しいハイパーボリックミラーステップとを交互に行うことを示す。
ハムの暗黙の偏見は、厳密なトレーニングでさえ、常にパフォーマンスを高める。
ハムは、様々なスパリフィケーション法と組み合わせて、芸術の状況を改善するのに特に効果的である。
論文 参考訳(メタデータ) (2025-06-03T08:47:16Z) - Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。
我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文 参考訳(メタデータ) (2024-12-21T20:23:47Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Stochastic Two Points Method for Deep Model Zeroth-order Optimization [32.459322001738144]
本稿では,勾配自由状態下での効率的な2点(S2P)アプローチを提案する。
一般および緩和された滑らか性仮定の下で、S2Pの理論収束性を示す。
我々は、VS2Pが深層モデルの目的を最適化するのに非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-02-02T18:39:40Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Steepest Descent Neural Architecture Optimization: Escaping Local
Optimum with Signed Neural Splitting [60.97465664419395]
我々は、局所最適性問題に対処する分割降下フレームワークの顕著で驚くべき拡張を開発する。
分割時の正と負の両方の重みを単純に許すことで、S2Dにおける分裂安定性の出現を排除できる。
我々は,CIFAR-100, ImageNet, ModelNet40 といった,S2D などの先進的なニューラルネットワークの精度とエネルギー効率の学習方法よりも優れている,様々な挑戦的なベンチマーク上で,本手法を検証する。
論文 参考訳(メタデータ) (2020-03-23T17:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。