論文の概要: On the Role of Initialization on the Implicit Bias in Deep Linear
Networks
- arxiv url: http://arxiv.org/abs/2402.02454v1
- Date: Sun, 4 Feb 2024 11:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:38:26.402145
- Title: On the Role of Initialization on the Implicit Bias in Deep Linear
Networks
- Title(参考訳): 深い線形ネットワークにおける入射バイアスの初期化の役割について
- Authors: Oria Gruber, Haim Avron
- Abstract要約: 本研究は,遊びにおける暗黙の偏見に起因する現象を探索することに焦点を当てた。
ステップサイズ、重み初期化、最適化アルゴリズム、パラメータ数など、暗黙バイアスの様々な情報源が特定されている。
- 参考スコア(独自算出の注目度): 8.272491066698041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Deep Learning's (DL) empirical success, our theoretical understanding
of its efficacy remains limited. One notable paradox is that while conventional
wisdom discourages perfect data fitting, deep neural networks are designed to
do just that, yet they generalize effectively. This study focuses on exploring
this phenomenon attributed to the implicit bias at play. Various sources of
implicit bias have been identified, such as step size, weight initialization,
optimization algorithm, and number of parameters. In this work, we focus on
investigating the implicit bias originating from weight initialization. To this
end, we examine the problem of solving underdetermined linear systems in
various contexts, scrutinizing the impact of initialization on the implicit
regularization when using deep networks to solve such systems. Our findings
elucidate the role of initialization in the optimization and generalization
paradoxes, contributing to a more comprehensive understanding of DL's
performance characteristics.
- Abstract(参考訳): deep learning(dl)の経験的成功にもかかわらず、その効果に関する理論的な理解は限られている。
注目すべきパラドックスの1つは、従来の知恵は完璧なデータ適合を阻害するが、ディープニューラルネットワークはまさにそれを行うように設計されているが、効果的に一般化する。
本研究は,遊びにおける暗黙のバイアスに起因したこの現象の探索に焦点をあてた。
ステップサイズ、重み初期化、最適化アルゴリズム、パラメータ数など、暗黙のバイアスのさまざまな源が特定されている。
本研究では,重量初期化から生じる暗黙のバイアスを調査することに注力する。
そこで本研究では,様々な文脈において未決定線形系を解くことの問題点について検討し,深層ネットワークを用いた解法における初期化の影響について検討する。
その結果,最適化と一般化のパラドックスにおける初期化の役割が解明され,DLの性能特性のより包括的な理解に寄与した。
関連論文リスト
- Sparsity-aware generalization theory for deep neural networks [12.525959293825318]
本稿では、ディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。
空間性と一般化の基本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-07-01T20:59:05Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Convergence Analysis and Implicit Regularization of Feedback Alignment
for Deep Linear Networks [27.614609336582568]
ニューラルネットワークのトレーニングのためのバックプロパゲーションの効率的な代替手段であるフィードバックアライメント(FA)アルゴリズムを理論的に解析する。
我々は、連続力学と離散力学の両方に対して、ディープ線形ネットワークのレートで収束保証を提供する。
論文 参考訳(メタデータ) (2021-10-20T22:57:03Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks [39.856439772974454]
グローバル最小値への効率的な収束に必要な幅は, 深さに依存しないことを示す。
この結果から, 非線形ネットワークの初期化による最近の経験的成功について, 動的アイソメトリの原理による説明が得られた。
論文 参考訳(メタデータ) (2020-01-16T18:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。