論文の概要: The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions
- arxiv url: http://arxiv.org/abs/2506.13234v1
- Date: Mon, 16 Jun 2025 08:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.800666
- Title: The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions
- Title(参考訳): バタフライ効果:ニューラルネットワークの訓練軌道は初期状態に非常に敏感である
- Authors: Devin Kwok, Gül Sena Altıntaş, Colin Raffel, David Rolnick,
- Abstract要約: たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。
この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
- 参考スコア(独自算出の注目度): 51.68215326304272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network training is inherently sensitive to initialization and the randomness induced by stochastic gradient descent. However, it is unclear to what extent such effects lead to meaningfully different networks, either in terms of the models' weights or the underlying functions that were learned. In this work, we show that during the initial "chaotic" phase of training, even extremely small perturbations reliably causes otherwise identical training trajectories to diverge-an effect that diminishes rapidly over training time. We quantify this divergence through (i) $L^2$ distance between parameters, (ii) the loss barrier when interpolating between networks, (iii) $L^2$ and barrier between parameters after permutation alignment, and (iv) representational similarity between intermediate activations; revealing how perturbations across different hyperparameter or fine-tuning settings drive training trajectories toward distinct loss minima. Our findings provide insights into neural network training stability, with practical implications for fine-tuning, model merging, and diversity of model ensembles.
- Abstract(参考訳): ニューラルネットワークトレーニングは、確率勾配降下によって誘導される初期化とランダム性に本質的に敏感である。
しかし、モデルの重みや学習した基礎関数の観点から、そのような効果がどの程度有意に異なるネットワークに繋がるかは定かではない。
本研究は, 初期の「カオス」期において, 非常に小さな摂動でさえも, ほぼ同一の訓練軌道を確実に引き起こし, トレーニング時間とともに急速に減少する効果を分散させることを示した。
私たちはこの分散を定量化します
(i)$L^2$パラメータ間の距離
二 ネットワーク間の補間時の損失障壁
三)$L^2$及び置換アライメント後のパラメータ間の障壁及び
(4) 中間活性化の表現的類似性は, 異なる過度パラメータや微調整設定の摂動が, 異なる損失最小値に向かってトレーニング軌道を駆動することを示す。
この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
関連論文リスト
- ConsistentFeature: A Plug-and-Play Component for Neural Network Regularization [0.32885740436059047]
過パラメータ化されたニューラルネットワークモデルは、トレーニングとテストセットの間に大きなパフォーマンスの相違をもたらすことが多い。
モデルは異なるデータセットで異なる表現を学習する。
適応的手法であるConsistentFeatureを提案し、同じトレーニングセットのランダムなサブセット間で特徴差を制約することでモデルを正規化する。
論文 参考訳(メタデータ) (2024-12-02T13:21:31Z) - GD doesn't make the cut: Three ways that non-differentiability affects neural network training [5.439020425819001]
本稿では,非微分可能関数(NGDM)に適用される手法と,微分可能関数に対する古典的勾配降下(GD)との区別を批判的に検討する。
我々の研究は、強い仮定に対する過度な信頼から生まれた、影響力のある文学におけるアルゴリズムの批判的な誤解を識別する。
論文 参考訳(メタデータ) (2024-01-16T15:11:29Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。