論文の概要: Effects of Initialization Biases on Deep Neural Network Training Dynamics
- arxiv url: http://arxiv.org/abs/2511.20826v1
- Date: Tue, 25 Nov 2025 20:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.846788
- Title: Effects of Initialization Biases on Deep Neural Network Training Dynamics
- Title(参考訳): ディープニューラルネットワークトレーニングダイナミクスに及ぼす初期化バイアスの影響
- Authors: Nicholas Pellegrino, David Szczecina, Paul W. Fieguth,
- Abstract要約: 訓練されていない大きなニューラルネットワークは、クラスの小さなサブセットを好む傾向にある。
モデルをトレーニングするための損失関数の選択は、これらの初期のダイナミクスがどのように機能するかに大きな影響を与える。
その結果,損失関数の選択はネットワークの初期段階訓練に劇的な影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 5.244775655612022
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Untrained large neural networks, just after random initialization, tend to favour a small subset of classes, assigning high predicted probabilities to these few classes and approximately zero probability to all others. This bias, termed Initial Guessing Bias, affects the early training dynamics, when the model is fitting to the coarse structure of the data. The choice of loss function against which to train the model has a large impact on how these early dynamics play out. Two recent loss functions, Blurry and Piecewise-zero loss, were designed for robustness to label errors but can become unable to steer the direction of training when exposed to this initial bias. Results indicate that the choice of loss function has a dramatic effect on the early phase training of networks, and highlights the need for careful consideration of how Initial Guessing Bias may interact with various components of the training scheme.
- Abstract(参考訳): ランダムな初期化の直後に、訓練されていない大きなニューラルネットワークは、少数のクラスに高い予測確率を割り当て、他のすべてのクラスにほぼゼロ確率を割り当てる傾向にある。
このバイアスはInitial Guessing Biasと呼ばれ、モデルがデータの粗い構造に適合している場合、初期のトレーニングのダイナミクスに影響を与える。
モデルをトレーニングするための損失関数の選択は、これらの初期のダイナミクスがどのように機能するかに大きな影響を与える。
最近の2つの損失関数であるBlurryとPiecewise-zeroの損失は、ラベルの誤りに対する堅牢性のために設計されたが、この初期バイアスにさらされるとトレーニングの方向を判断できない。
その結果、損失関数の選択はネットワークの初期段階のトレーニングに劇的な影響を与え、初期誘導バイアスがトレーニングスキームの様々なコンポーネントとどのように相互作用するかを慎重に検討する必要があることが示唆された。
関連論文リスト
- The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。
この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文 参考訳(メタデータ) (2025-06-16T08:35:16Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Initialization Matters for Adversarial Transfer Learning [61.89451332757625]
我々は、逆向きに頑健な事前訓練モデルの必要性を発見する。
本稿では, 対向線形探索により得られる重み付き線形ヘッドを初期化する対向微調整のためのロバスト線形初期化法(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Understanding and Improving Transfer Learning of Deep Models via Neural Collapse [37.483109067209504]
分類問題に対する神経崩壊(NC)と伝達学習の関係について検討する。
機能崩壊と下流のパフォーマンスには強い相関関係がある。
提案手法は, 微調整パラメータを90%以上削減しつつ, 優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-23T08:48:34Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Frosting Weights for Better Continual Training [22.554993259239307]
ニューラルネットワークモデルをトレーニングすることは、生涯にわたる学習プロセスであり、計算集約的なプロセスである。
ディープニューラルネットワークモデルは、新しいデータの再トレーニング中に破滅的な忘れに悩まされる可能性がある。
そこで我々は,この問題を解決するために,勾配向上とメタラーニングという2つの一般的なアンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-07T00:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。