論文の概要: Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks
- arxiv url: http://arxiv.org/abs/2210.01019v1
- Date: Mon, 3 Oct 2022 15:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:06:44.164549
- Title: Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks
- Title(参考訳): 単調線形補間における高原 --深層ネットワークにおける損失景観の「偏り」
- Authors: Xiang Wang, Annie N. Wang, Mo Zhou, Rong Ge
- Abstract要約: モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
- 参考スコア(独自算出の注目度): 18.71055320062469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monotonic linear interpolation (MLI) - on the line connecting a random
initialization with the minimizer it converges to, the loss and accuracy are
monotonic - is a phenomenon that is commonly observed in the training of neural
networks. Such a phenomenon may seem to suggest that optimization of neural
networks is easy. In this paper, we show that the MLI property is not
necessarily related to the hardness of optimization problems, and empirical
observations on MLI for deep neural networks depend heavily on biases. In
particular, we show that interpolating both weights and biases linearly leads
to very different influences on the final output, and when different classes
have different last-layer biases on a deep network, there will be a long
plateau in both the loss and accuracy interpolation (which existing theory of
MLI cannot explain). We also show how the last-layer biases for different
classes can be different even on a perfectly balanced dataset using a simple
model. Empirically we demonstrate that similar intuitions hold on practical
networks and realistic datasets.
- Abstract(参考訳): 単調線形補間 (monotonic linear interpolation, mli) - ランダム初期化と収束する最小化器をつなぐ線上で、損失と精度は単調である - はニューラルネットワークのトレーニングでよく見られる現象である。
このような現象は、ニューラルネットワークの最適化が容易であることを示すように思える。
本稿では、MLI特性が最適化問題の硬さに必ずしも関係していないことを示し、深層ニューラルネットワークに対するMLIの実証観測はバイアスに大きく依存することを示した。
特に、重みと偏りを線形に補間することは最終的な出力に非常に異なる影響をもたらすことを示し、異なるクラスが深いネットワーク上で最終層バイアスを持つ場合、損失と精度の補間(MLIの既存の理論では説明できない)には長い台地が存在する。
また、単純なモデルを用いて、完全なバランスのとれたデータセット上でも異なるクラスに対する最終層バイアスがどのように異なるかを示す。
経験的に、同様の直観は実践的なネットワークと現実的なデータセットに当てはまる。
関連論文リスト
- Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。
我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文 参考訳(メタデータ) (2024-10-03T09:58:57Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Analyzing Monotonic Linear Interpolation in Neural Network Loss
Landscapes [17.222244907679997]
平均二乗誤差でMLI特性の十分な条件を提供します。
MLIプロパティは様々な設定で保持されるが、実際にはMLIプロパティを体系的に違反する。
論文 参考訳(メタデータ) (2021-04-22T13:22:12Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Piecewise linear activations substantially shape the loss surfaces of
neural networks [95.73230376153872]
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。
一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
論文 参考訳(メタデータ) (2020-03-27T04:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。