論文の概要: Saddle-to-Saddle Dynamics in Diagonal Linear Networks
- arxiv url: http://arxiv.org/abs/2304.00488v2
- Date: Wed, 25 Oct 2023 16:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 21:24:39.641085
- Title: Saddle-to-Saddle Dynamics in Diagonal Linear Networks
- Title(参考訳): 対角線ネットワークにおけるサドルからサドルへのダイナミクス
- Authors: Scott Pesme and Nicolas Flammarion
- Abstract要約: 本稿では,初期化の終了限界における対角線ネットワーク上の勾配流の軌跡について述べる。
制限フローは、トレーニング損失のサドルから、最低$ell_$-normに到達するまで、連続して別のサドルにジャンプすることを示す。
このサドル・トゥ・サドル力学は、各サドルが座標がゼロでなければならないアクティブな集合に制約された損失の最小値に対応するため、漸進的な学習過程に変換される。
- 参考スコア(独自算出の注目度): 25.016903949040817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we fully describe the trajectory of gradient flow over diagonal
linear networks in the limit of vanishing initialisation. We show that the
limiting flow successively jumps from a saddle of the training loss to another
until reaching the minimum $\ell_1$-norm solution. This saddle-to-saddle
dynamics translates to an incremental learning process as each saddle
corresponds to the minimiser of the loss constrained to an active set outside
of which the coordinates must be zero. We explicitly characterise the visited
saddles as well as the jumping times through a recursive algorithm reminiscent
of the LARS algorithm used for computing the Lasso path. Our proof leverages a
convenient arc-length time-reparametrisation which enables to keep track of the
heteroclinic transitions between the jumps. Our analysis requires negligible
assumptions on the data, applies to both under and overparametrised settings
and covers complex cases where there is no monotonicity of the number of active
coordinates. We provide numerical experiments to support our findings.
- Abstract(参考訳): 本稿では,消失初期化の限界における対角線形ネットワーク上の勾配流れの軌跡を十分に記述する。
制限フローはトレーニング損失のサドルから、最低$\ell_1$-norm 解に到達するまで連続的に変化する。
このsaddle-to-saddleダイナミクスは、各saddleが座標がゼロでなければならないアクティブな集合に制約された損失のミニミザーに対応するため、インクリメンタルな学習プロセスに変換される。
我々は、ラッソパスの計算に使用されるLARSアルゴリズムを思い起こさせる再帰アルゴリズムを用いて、訪問したサドルとジャンプ時間を明確に特徴付ける。
この証明は、ジャンプ間のヘテロクリニックな遷移を追跡できる、便利な弧長のタイムリパラメトリレーションを利用する。
我々の分析では、データに対する無視可能な仮定が必要であり、下層および過度なパラメータ設定にも適用され、アクティブ座標数の単調性がない複雑なケースをカバーする。
我々は発見を支援するために数値実験を行う。
関連論文リスト
- Efficient line search for optimizing Area Under the ROC Curve in gradient descent [2.094821665776961]
偽陰性率と偽陰性率のAUM(Area Under Min)の分別線形/定数特性について検討した。
降下段階毎に最適な学習率を選択するための,新しい効率的な経路追従アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-11T08:59:06Z) - A Sample Efficient Alternating Minimization-based Algorithm For Robust Phase Retrieval [56.67706781191521]
そこで本研究では,未知の信号の復元を課題とする,ロバストな位相探索問題を提案する。
提案するオラクルは、単純な勾配ステップと外れ値を用いて、計算学的スペクトル降下を回避している。
論文 参考訳(メタデータ) (2024-09-07T06:37:23Z) - Leveraging Continuous Time to Understand Momentum When Training Diagonal
Linear Networks [21.176224458126285]
ステップサイズ$gamma$と運動量パラメータ$beta$を用いて運動量勾配勾配の解析に連続時間アプローチを用いる。
私たちは、$lambda$の小さな値がスパースソリューションの回復に役立つことを証明しています。
論文 参考訳(メタデータ) (2024-03-08T13:21:07Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - On Learning Gaussian Multi-index Models with Gradient Flow [57.170617397894404]
高次元ガウスデータに対する多次元回帰問題の勾配流について検討する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
論文 参考訳(メタデータ) (2023-10-30T17:55:28Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - AdaLoss: A computationally-efficient and provably convergent adaptive
gradient method [7.856998585396422]
本稿では,損失関数の情報を用いて数値的な調整を行う,計算に親しみやすい学習スケジュール"AnomidaLoss"を提案する。
テキストおよび制御問題に対するLSTMモデルの適用による数値実験の範囲の検証を行う。
論文 参考訳(メタデータ) (2021-09-17T01:45:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Boundary Conditions for Linear Exit Time Gradient Trajectories Around
Saddle Points: Analysis and Algorithm [9.69596041242667]
厳密なサドル点の景観における多目的関数の理解について述べる。
厳密なサドル点の最大値を持つ局所的な景観に収束する近傍の解析についても述べる。
論文 参考訳(メタデータ) (2021-01-07T16:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。