論文の概要: On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent
- arxiv url: http://arxiv.org/abs/2102.09769v1
- Date: Fri, 19 Feb 2021 07:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:24:10.360941
- Title: On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent
- Title(参考訳): 初期化の急激なバイアス--無限小鏡の輝きを超えて-
- Authors: Shahar Azulay, Edward Moroshko, Mor Shpigel Nacson, Blake Woodworth,
Nathan Srebro, Amir Globerson, Daniel Soudry
- Abstract要約: 学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
- 参考スコア(独自算出の注目度): 55.96478231566129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has highlighted the role of initialization scale in determining
the structure of the solutions that gradient methods converge to. In
particular, it was shown that large initialization leads to the neural tangent
kernel regime solution, whereas small initialization leads to so called "rich
regimes". However, the initialization structure is richer than the overall
scale alone and involves relative magnitudes of different weights and layers in
the network. Here we show that these relative scales, which we refer to as
initialization shape, play an important role in determining the learned model.
We develop a novel technique for deriving the inductive bias of gradient-flow
and use it to obtain closed-form implicit regularizers for multiple cases of
interest.
- Abstract(参考訳): 近年の研究では、勾配法が収束する解の構造決定における初期化スケールの役割が強調されている。
特に、大きな初期化が神経接核系解につながるのに対し、小さな初期化はいわゆる「リッチ系」につながることが示された。
しかし、初期化構造は全体のスケールよりも豊かであり、ネットワーク内の異なる重みと層の相対的な大きさを含む。
ここでは,これらの相対スケールを初期化形状と呼び,学習モデルを決定する上で重要な役割を担っていることを示す。
グラデーションフローの帰納的バイアスを導出する新しい手法を開発し,それを用いて複数症例の閉形式陰影正規化器を得る。
関連論文リスト
- Implicit Regularization for Tubal Tensor Factorizations via Gradient Descent [4.031100721019478]
遅延学習体制を超えて過度にパラメータ化されたテンソル分解問題における暗黙正則化の厳密な解析を行う。
勾配流ではなく勾配降下の種別の最初のテンソル結果を証明する。
論文 参考訳(メタデータ) (2024-10-21T17:52:01Z) - Early alignment in two-layer networks training is a two-edged sword [24.43739371803548]
1次最適化手法によるニューラルネットワークのトレーニングは、ディープラーニングの実証的な成功の核心にある。
小さな初期化は一般的に、単純な解に対して勾配降下が暗黙的に偏っている特徴学習体制に関連付けられている。
この研究は、元来Maennelらによって導入された初期のアライメントフェーズの一般的かつ定量的な記述を提供する。
論文 参考訳(メタデータ) (2024-01-19T16:23:53Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。