論文の概要: Unique Properties of Flat Minima in Deep Networks
- arxiv url: http://arxiv.org/abs/2002.04710v2
- Date: Sat, 8 Aug 2020 22:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:36:58.017701
- Title: Unique Properties of Flat Minima in Deep Networks
- Title(参考訳): 深層ネットワークにおけるフラットミニマの特異な性質
- Authors: Rotem Mulayoff, Tomer Michaeli
- Abstract要約: 2次損失で訓練された線形ニューラルネットワークにおける平坦なミニマを特徴付ける。
実験により、これらの性質は実際に訓練された線形モデルと非線形モデルの両方の特徴であることが示されている。
- 参考スコア(独自算出の注目度): 44.21198403467404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that (stochastic) gradient descent has an implicit bias
towards flat minima. In deep neural network training, this mechanism serves to
screen out minima. However, the precise effect that this has on the trained
network is not yet fully understood. In this paper, we characterize the flat
minima in linear neural networks trained with a quadratic loss. First, we show
that linear ResNets with zero initialization necessarily converge to the
flattest of all minima. We then prove that these minima correspond to nearly
balanced networks whereby the gain from the input to any intermediate
representation does not change drastically from one layer to the next. Finally,
we show that consecutive layers in flat minima solutions are coupled. That is,
one of the left singular vectors of each weight matrix, equals one of the right
singular vectors of the next matrix. This forms a distinct path from input to
output, that, as we show, is dedicated to the signal that experiences the
largest gain end-to-end. Experiments indicate that these properties are
characteristic of both linear and nonlinear models trained in practice.
- Abstract(参考訳): 統計的に)勾配降下が平坦な極小に対して暗黙のバイアスを持つことはよく知られている。
ディープニューラルネットワークトレーニングでは、このメカニズムはミニマをスクリーニングするのに役立つ。
しかし、これがトレーニングネットワークに与える影響は、まだ完全には理解されていない。
本稿では,2次損失を学習した線形ニューラルネットワークにおける平坦なミニマを特徴付ける。
まず, 初期化がゼロな線形resnetがすべての最小値の平坦値に収束することを示す。
そして、これらのミニマは、入力から任意の中間表現へのゲインが1つの層から次の層へと大きく変化しない、ほぼバランスのとれたネットワークに対応することを証明します。
最後に, 平らなミニマ溶液の連続層が結合されていることを示す。
すなわち、各重み行列の左特異ベクトルの1つは、次の行列の右特異ベクトルの1つに等しい。
これは、入力から出力への明確な経路を形成し、私たちが示すように、エンドツーエンドで最大のゲインを経験するシグナル専用です。
実験により、これらの性質は実際に訓練された線形モデルと非線形モデルの両方の特徴であることが示されている。
関連論文リスト
- Deep linear networks for regression are implicitly regularized towards flat minima [4.806579822134391]
最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
最小化器のシャープネスは, 深さとともに線形に成長する。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
論文 参考訳(メタデータ) (2024-05-22T08:58:51Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss
Landscape for Deep Networks [18.71055320062469]
モノトニックリニア(英: Monotonic linear、MLI)は、ニューラルネットワークのトレーニングでよく見られる現象である。
MLI特性は最適化問題の硬さと必ずしも関係がないことを示す。
特に、重みと偏りを線形に補間することは、最終的な出力に非常に異なる影響をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T15:33:29Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Implicit Regularization Towards Rank Minimization in ReLU Networks [34.41953136999683]
ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
論文 参考訳(メタデータ) (2022-01-30T09:15:44Z) - Dissecting Supervised Constrastive Learning [24.984074794337157]
高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
論文 参考訳(メタデータ) (2021-02-17T15:22:38Z) - A case where a spindly two-layer linear network whips any neural network
with a fully connected input layer [24.132345589750592]
勾配降下によるスパース目標を効率的に学習するために,スパース入力層が必要であることを示す。
驚くべきことに、同じタイプの問題は、単純な2層線形ニューラルネットワークによって大幅に効率良く解決できる。
論文 参考訳(メタデータ) (2020-10-16T20:49:58Z) - Piecewise linear activations substantially shape the loss surfaces of
neural networks [95.73230376153872]
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。
一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
論文 参考訳(メタデータ) (2020-03-27T04:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。