論文の概要: Gradient flow for deep equilibrium single-index models
- arxiv url: http://arxiv.org/abs/2511.16976v1
- Date: Fri, 21 Nov 2025 06:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.899457
- Title: Gradient flow for deep equilibrium single-index models
- Title(参考訳): 深部平衡単一インデックスモデルに対する勾配流
- Authors: Sanjit Dandapanthula, Aaditya Ramdas,
- Abstract要約: ディープ均衡モデル(Deep equilibrium model, DEQ)は、無限に深い重み付きニューラルネットワークをトレーニングするための強力なパラダイムとして登場した。
線形モデルと単一インデックスモデルの簡単な設定でDECの勾配勾配勾配ダイナミクスを厳密に研究する。
次に、線形DQと深い平衡単インデックスモデルに対する大域最小化器への勾配勾配勾配の線形収束を証明した。
- 参考スコア(独自算出の注目度): 32.2015869030351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep equilibrium models (DEQs) have recently emerged as a powerful paradigm for training infinitely deep weight-tied neural networks that achieve state of the art performance across many modern machine learning tasks. Despite their practical success, theoretically understanding the gradient descent dynamics for training DEQs remains an area of active research. In this work, we rigorously study the gradient descent dynamics for DEQs in the simple setting of linear models and single-index models, filling several gaps in the literature. We prove a conservation law for linear DEQs which implies that the parameters remain trapped on spheres during training and use this property to show that gradient flow remains well-conditioned for all time. We then prove linear convergence of gradient descent to a global minimizer for linear DEQs and deep equilibrium single-index models under appropriate initialization and with a sufficiently small step size. Finally, we validate our theoretical findings through experiments.
- Abstract(参考訳): ディープ均衡モデル(Deep equilibrium model, DEQ)は、最近、多くの現代の機械学習タスクで最先端のパフォーマンスを達成する無限に深い重み付けニューラルネットワークをトレーニングするための強力なパラダイムとして登場した。
その実践的な成功にもかかわらず、DECを訓練するための勾配勾配勾配のダイナミクスを理論的に理解することは、現在も活発な研究分野である。
本研究では、線形モデルと単一インデックスモデルの単純な設定において、DECの勾配勾配勾配ダイナミクスを厳密に研究し、文献のいくつかのギャップを埋める。
本研究では, 線形DQの保存則を証明し, パラメータがトレーニング中に球面に閉じ込められていることを示唆し, この特性を用いて, 勾配流が常に良好な条件で維持されていることを示す。
次に、線形DQと深部平衡単一指数モデルに対する大域最小化器への勾配勾配勾配の線形収束を適切な初期化と十分に小さなステップサイズで証明する。
最後に,実験により理論的知見を検証した。
関連論文リスト
- High-Dimensional Learning Dynamics of Quantized Models with Straight-Through Estimator [7.837881800517111]
量子ニューラルネットワークトレーニングは、離散的で微分不可能な目的を最適化する。
ストレートスルー推定器(STE)は、サロゲート勾配によるバックプロパゲーションを可能にする。
理論的には、高次元極限において、STEダイナミクスは通常の決定論的微分方程式に収束する。
論文 参考訳(メタデータ) (2025-10-12T16:43:46Z) - Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。
我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文 参考訳(メタデータ) (2024-12-21T20:23:47Z) - State-space models can learn in-context by gradient descent [1.3087858009942543]
状態空間モデルは、勾配に基づく学習を実行し、変換器と全く同じ方法で、文脈内学習に使用することができることを示す。
具体的には、1つの構造化状態空間モデル層が乗算入力と出力ゲーティングで拡張され、暗黙線形モデルの出力を再現できることを証明した。
また、状態空間モデルと線形自己意識の関係と、文脈内で学習する能力に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。