論文の概要: Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy
- arxiv url: http://arxiv.org/abs/2007.06738v1
- Date: Mon, 13 Jul 2020 23:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:15:12.361522
- Title: Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy
- Title(参考訳): 深層線形分類におけるインシシットバイアス:初期化尺度とトレーニング精度
- Authors: Edward Moroshko, Suriya Gunasekar, Blake Woodworth, Jason D. Lee,
Nathan Srebro, Daniel Soudry
- Abstract要約: 移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
- 参考スコア(独自算出の注目度): 71.25689267025244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a detailed asymptotic study of gradient flow trajectories and
their implicit optimization bias when minimizing the exponential loss over
"diagonal linear networks". This is the simplest model displaying a transition
between "kernel" and non-kernel ("rich" or "active") regimes. We show how the
transition is controlled by the relationship between the initialization scale
and how accurately we minimize the training loss. Our results indicate that
some limit behaviors of gradient descent only kick in at ridiculous training
accuracies (well beyond $10^{-100}$). Moreover, the implicit bias at reasonable
initialization scales and training accuracies is more complex and not captured
by these limits.
- Abstract(参考訳): 直交線形ネットワーク上での指数損失を最小化する際の勾配流軌跡とその暗黙の最適化バイアスに関する漸近的研究について述べる。
これは「カーネル」と非カーネル(「リッチ」または「アクティブ」)レジーム間の遷移を示す最も単純なモデルである。
移行が初期化尺度とトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかばかしいトレーニング確率(10~100ドル以上)でのみ開始できることが示唆された。
さらに、合理的初期化スケールでの暗黙の偏見とトレーニングの精度はより複雑であり、これらの制限によって捉えられていない。
関連論文リスト
- Deep linear networks for regression are implicitly regularized towards flat minima [4.806579822134391]
最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
最小化器のシャープネスは, 深さとともに線形に成長する。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
論文 参考訳(メタデータ) (2024-05-22T08:58:51Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Cost Function Unrolling in Unsupervised Optical Flow [6.656273171776146]
この研究は、教師なしコスト関数でよく使われるトータル変分半ノルムの導出に焦点を当てている。
我々は、コストアンロールと呼ばれる新しい反復スキームにおいて、ハードL1スムーズネス制約に対する微分可能なプロキシを導出する。
論文 参考訳(メタデータ) (2020-11-30T14:10:03Z) - Implicit bias of deep linear networks in the large learning rate phase [15.846533303963229]
大規模学習率体系におけるロジスティック損失を用いた二項分類のための深い線形ネットワークの暗黙バイアス効果を特徴付ける。
データの分離条件により、勾配降下反復はカタパルト相においてより平坦な最小値に収束すると主張する。
論文 参考訳(メタデータ) (2020-11-25T06:50:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。