論文の概要: Rod Flow: A Continuous-Time Model for Gradient Descent at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2602.01480v1
- Date: Sun, 01 Feb 2026 23:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.809763
- Title: Rod Flow: A Continuous-Time Model for Gradient Descent at the Edge of Stability
- Title(参考訳): Rod Flow: 安定の端におけるグラディエントDescentの連続時間モデル
- Authors: Eric Regis, Sinho Chewi,
- Abstract要約: 大きなステップサイズの勾配降下は、勾配流からしばしば遠ざかる。
Cohenらによって提唱された「中心流」は、GDダイナミクスの正確な近似を提供する。
簡単な玩具の例としては,GDのダイナミックスをよりよく捉えたRod Flowを提案する。
- 参考スコア(独自算出の注目度): 9.11122093402205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we understand gradient-based training over non-convex landscapes? The edge of stability phenomenon, introduced in Cohen et al. (2021), indicates that the answer is not so simple: namely, gradient descent (GD) with large step sizes often diverges away from the gradient flow. In this regime, the "Central Flow", recently proposed in Cohen et al. (2025), provides an accurate ODE approximation to the GD dynamics over many architectures. In this work, we propose Rod Flow, an alternative ODE approximation, which carries the following advantages: (1) it rests on a principled derivation stemming from a physical picture of GD iterates as an extended one-dimensional object -- a "rod"; (2) it better captures GD dynamics for simple toy examples and matches the accuracy of Central Flow for representative neural network architectures, and (3) is explicit and cheap to compute. Theoretically, we prove that Rod Flow correctly predicts the critical sharpness threshold and explains self-stabilization in quartic potentials. We validate our theory with a range of numerical experiments.
- Abstract(参考訳): 非凸ランドスケープにおける勾配に基づくトレーニングの理解
Cohen et al (2021) で導入された安定性現象の端は、解答がそれほど単純ではないことを示している。
この体制において、Cohen et al (2025) で最近提案された "Central Flow" は、多くのアーキテクチャ上のGDダイナミクスに正確なODE近似を提供する。
本研究では,(1)GDの物理像から生じる原理的導出を1次元のオブジェクトとして反復する「ロッド」,(2)単純な玩具の例としてGDのダイナミクスをよりよく捉え,代表的ニューラルネットワークアーキテクチャのCentral Flowの精度と一致させ,(3)明示的かつ安価に計算できる,という利点を生かした,別のODE近似法であるRod Flowを提案する。
理論的には、ロッドフローが臨界シャープネス閾値を正確に予測し、クォートポテンシャルの自己安定化を説明する。
我々はこの理論を様々な数値実験で検証する。
関連論文リスト
- Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。
我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文 参考訳(メタデータ) (2024-12-21T20:23:47Z) - Kernel Approximation of Fisher-Rao Gradient Flows [52.154685604660465]
本稿では,フィッシャー・ラオ型およびワッサーシュタイン型勾配流の勾配構造,流れ方程式,および核近似に関する厳密な研究を行う。
具体的には、フィッシャー・ラオ幾何学とその様々なカーネルに基づく近似に注目し、原理的な理論的枠組みを開発する。
論文 参考訳(メタデータ) (2024-10-27T22:52:08Z) - On the Wasserstein Convergence and Straightness of Rectified Flow [54.580605276017096]
Rectified Flow (RF) は、ノイズからデータへの直流軌跡の学習を目的とした生成モデルである。
RFのサンプリング分布とターゲット分布とのワッサーシュタイン距離に関する理論的解析を行った。
本稿では,従来の経験的知見と一致した1-RFの特異性と直線性を保証する一般的な条件について述べる。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - Neural Sinkhorn Gradient Flow [11.4522103360875]
本稿では,ワッサーシュタイン勾配流の時間変化速度場をパラメータ化したニューラルシンクホーン勾配流(NSGF)モデルを提案する。
理論解析により, 試料径が無限大に大きくなるにつれて, 経験的近似の平均場限界は真の基礎速度場に収束することが示された。
高次元タスクにおけるモデル効率をさらに高めるために、二相NSGF++モデルが考案された。
論文 参考訳(メタデータ) (2024-01-25T10:44:50Z) - Particle-based Variational Inference with Generalized Wasserstein
Gradient Flow [32.37056212527921]
本稿では一般化ワッサーシュタイン勾配勾配(GWG)と呼ばれるParVIフレームワークを提案する。
GWGが強い収束保証を示すことを示す。
また、収束を加速するためにワッサーシュタイン計量を自動的に選択する適応版も提供する。
論文 参考訳(メタデータ) (2023-10-25T10:05:42Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - A Near-Optimal Gradient Flow for Learning Neural Energy-Based Models [93.24030378630175]
学習エネルギーベースモデル(EBM)の勾配流を最適化する新しい数値スキームを提案する。
フォッカー・プランク方程式から大域相対エントロピーの2階ワッサーシュタイン勾配流を導出する。
既存のスキームと比較して、ワッサーシュタイン勾配流は実データ密度を近似するより滑らかで近似的な数値スキームである。
論文 参考訳(メタデータ) (2019-10-31T02:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。