論文の概要: Analyzing Monotonic Linear Interpolation in Neural Network Loss
Landscapes
- arxiv url: http://arxiv.org/abs/2104.11044v2
- Date: Fri, 23 Apr 2021 17:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 11:21:32.372342
- Title: Analyzing Monotonic Linear Interpolation in Neural Network Loss
Landscapes
- Title(参考訳): ニューラルネットワークロスランドスケープにおける単調線形補間の解析
- Authors: James Lucas, Juhan Bae, Michael R. Zhang, Stanislav Fort, Richard
Zemel, Roger Grosse
- Abstract要約: 平均二乗誤差でMLI特性の十分な条件を提供します。
MLIプロパティは様々な設定で保持されるが、実際にはMLIプロパティを体系的に違反する。
- 参考スコア(独自算出の注目度): 17.222244907679997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear interpolation between initial neural network parameters and converged
parameters after training with stochastic gradient descent (SGD) typically
leads to a monotonic decrease in the training objective. This Monotonic Linear
Interpolation (MLI) property, first observed by Goodfellow et al. (2014)
persists in spite of the non-convex objectives and highly non-linear training
dynamics of neural networks. Extending this work, we evaluate several
hypotheses for this property that, to our knowledge, have not yet been
explored. Using tools from differential geometry, we draw connections between
the interpolated paths in function space and the monotonicity of the network -
providing sufficient conditions for the MLI property under mean squared error.
While the MLI property holds under various settings (e.g. network architectures
and learning problems), we show in practice that networks violating the MLI
property can be produced systematically, by encouraging the weights to move far
from initialization. The MLI property raises important questions about the loss
landscape geometry of neural networks and highlights the need to further study
their global properties.
- Abstract(参考訳): 確率勾配降下(SGD)によるトレーニング後の初期ニューラルネットワークパラメータと収束パラメータの線形補間は、訓練目標の単調な減少につながる。
この単調線形補間(MLI)特性はGoodfellowらによって初めて観察された。
2014年) ニューラルネットワークの非凸目的と高度に非線形なトレーニングダイナミクスにもかかわらず継続する。
この研究を拡張し、この性質について、我々の知る限り、まだ研究されていないいくつかの仮説を評価する。
微分幾何学のツールを用いて、関数空間における補間経路と平均二乗誤差の下でのMLI特性に対する十分な条件を満たすネットワークの単調性との間の接続を描く。
MLIプロパティはさまざまな設定(例)で保持される。
ネットワークアーキテクチャと学習問題) MLIプロパティに違反するネットワークは,初期化から遠ざかる重みを奨励することにより,体系的に生成可能であることを示す。
MLIプロパティは、ニューラルネットワークの損失ランドスケープ幾何学に関する重要な疑問を提起し、そのグローバルな特性をさらに研究する必要性を強調している。
関連論文リスト
- Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T15:33:29Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。