論文の概要: Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity
- arxiv url: http://arxiv.org/abs/2106.09524v1
- Date: Thu, 17 Jun 2021 14:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 22:28:47.248597
- Title: Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity
- Title(参考訳): 対角線ネットワークにおけるSGDの必須バイアス-確率性の確率的ベネフィット
- Authors: Scott Pesme, Loucas Pillaud-Vivien and Nicolas Flammarion
- Abstract要約: 直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
- 参考スコア(独自算出の注目度): 24.428843425522107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the implicit bias of training algorithms is of crucial
importance in order to explain the success of overparametrised neural networks.
In this paper, we study the dynamics of stochastic gradient descent over
diagonal linear networks through its continuous time version, namely stochastic
gradient flow. We explicitly characterise the solution chosen by the stochastic
flow and prove that it always enjoys better generalisation properties than that
of gradient flow. Quite surprisingly, we show that the convergence speed of the
training loss controls the magnitude of the biasing effect: the slower the
convergence, the better the bias. To fully complete our analysis, we provide
convergence guarantees for the dynamics. We also give experimental results
which support our theoretical claims. Our findings highlight the fact that
structured noise can induce better generalisation and they help explain the
greater performances observed in practice of stochastic gradient descent over
gradient descent.
- Abstract(参考訳): 過パラメータニューラルネットワークの成功を説明するためには、トレーニングアルゴリズムの暗黙のバイアスを理解することが重要である。
本稿では, 対角線ネットワーク上での確率勾配勾配のダイナミクスについて, 連続時間, すなわち確率勾配流を用いて検討する。
確率的流れによって選択される解を明示的に特徴付け、勾配流よりも常により良い一般化特性を享受できることを証明する。
非常に驚くべきことに、トレーニング損失の収束速度がバイアス効果の程度、すなわち収束が遅くなるほどバイアスが良くなることを示す。
解析を完全化するために、ダイナミクスの収束保証を提供する。
理論的主張を支持する実験結果も提示する。
本研究は, 構造雑音がより一般化し, 傾きよりも確率的勾配降下の実践において観察されるより大きな性能を説明するのに役立つことを示す。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - On the Overlooked Structure of Stochastic Gradients [34.650998241703626]
一方,ミニバッチトレーニングによる繰り返し勾配と勾配雑音は,通常,パワー則重尾は示さない。
我々の研究は、既存の信念に挑戦し、ディープラーニングにおける勾配の構造に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-12-05T07:55:22Z) - Label noise (stochastic) gradient descent implicitly solves the Lasso
for quadratic parametrisation [14.244787327283335]
本研究では, 連続時間モデルを用いて, 4次パラメトリッドモデルのトレーニング力学におけるラベルノイズの役割について検討する。
本研究は,構造ノイズがより高度な一般化を誘導し,実際に観察されるダイナミックスの性能の向上を説明できることを示すものである。
論文 参考訳(メタデータ) (2022-06-20T15:24:42Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - A Random Matrix Theory Approach to Damping in Deep Learning [0.7614628596146599]
深層学習における適応的勾配法と非適応的勾配法との違いは推定ノイズの増加に起因すると推測する。
線形縮退推定にインスパイアされた2次オプティマイザのためのランダム行列理論に基づくダンピング学習器を開発した。
論文 参考訳(メタデータ) (2020-11-15T18:19:42Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。