論文の概要: Saddle-To-Saddle Dynamics in Deep ReLU Networks: Low-Rank Bias in the First Saddle Escape
- arxiv url: http://arxiv.org/abs/2505.21722v1
- Date: Tue, 27 May 2025 20:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.265881
- Title: Saddle-To-Saddle Dynamics in Deep ReLU Networks: Low-Rank Bias in the First Saddle Escape
- Title(参考訳): 深部ReLUネットワークにおけるサドル・ツー・サドルダイナミクス:最初のサドルエスケープにおける低ランクバイアス
- Authors: Ioannis Bantzis, James B. Simon, Arthur Jacot,
- Abstract要約: 本研究では,厳密なサドルに対するヘッセン族の固有ベクトルと同じような役割を持つ,いわゆる脱出方向について検討する。
最適な脱出方向は,より深い層に低ランクバイアスを呈することを示す。
この結果は、深いReLUネットワークにおけるSaddle-to-Saddleのダイナミクスを証明する最初のステップである、と我々は主張する。
- 参考スコア(独自算出の注目度): 10.954782020696557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a deep ReLU network is initialized with small weights, GD is at first dominated by the saddle at the origin in parameter space. We study the so-called escape directions, which play a similar role as the eigenvectors of the Hessian for strict saddles. We show that the optimal escape direction features a low-rank bias in its deeper layers: the first singular value of the $\ell$-th layer weight matrix is at least $\ell^{\frac{1}{4}}$ larger than any other singular value. We also prove a number of related results about these escape directions. We argue that this result is a first step in proving Saddle-to-Saddle dynamics in deep ReLU networks, where GD visits a sequence of saddles with increasing bottleneck rank.
- Abstract(参考訳): 深いReLUネットワークが小さな重みで初期化されると、GDは最初、パラメータ空間の原点にあるサドルに支配される。
本研究では,厳密なサドルに対するヘッセン族の固有ベクトルと同じような役割を持つ,いわゆる脱出方向について検討する。
最適脱出方向は、より深い層において低ランクバイアスを特徴とし、$\ell$-th層重み行列の最初の特異値は、少なくとも$\ell^{\frac{1}{4}}$は他のどの特異値よりも大きい。
また,これらの避難経路について,いくつかの関連する結果が得られた。
我々は、この結果が、GDがボトルネックランクの増大した一連のサドルを訪れる深層ReLUネットワークにおけるサドル・アンド・サドル力学を証明するための第一歩であると論じる。
関連論文リスト
- Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations [3.0222726571099665]
非シーム層は、グラフ異常検出、重み空間アライメント、ワッサーシュタイン距離の学習といったタスクのパフォーマンスを向上させることができることを示す。
また、これらの追加の非シーム層は、グラフ異常の検出、重み空間のアライメント、ワッサーシュタイン距離の学習といったタスクのパフォーマンスを向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-10-09T08:19:31Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Saddle-to-Saddle Dynamics in Diagonal Linear Networks [25.016903949040817]
本稿では,初期化の終了限界における対角線ネットワーク上の勾配流の軌跡について述べる。
制限フローは、トレーニング損失のサドルから、最低$ell_$-normに到達するまで、連続して別のサドルにジャンプすることを示す。
このサドル・トゥ・サドル力学は、各サドルが座標がゼロでなければならないアクティブな集合に制約された損失の最小値に対応するため、漸進的な学習過程に変換される。
論文 参考訳(メタデータ) (2023-04-02T08:53:43Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Deep Linear Networks Dynamics: Low-Rank Biases Induced by Initialization
Scale and L2 Regularization [9.799637101641151]
勾配勾配勾配から得られる線形写像のランクは,パラメータに$L_2$正規化を加えることによりどのように影響を受けるかを検討する。
パラメータに$L_p$-Schatten(quasi)ノルムを加えると、線形写像上の$L_p$-Schatten(quasi)ノルムのコストが加算される。
いくつかの設定では、これらの局所的なミニマはグローバルなミニマよりも一般化可能であることを数値的に観察する。
論文 参考訳(メタデータ) (2021-06-30T09:34:05Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。