論文の概要: Label noise (stochastic) gradient descent implicitly solves the Lasso
for quadratic parametrisation
- arxiv url: http://arxiv.org/abs/2206.09841v1
- Date: Mon, 20 Jun 2022 15:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 08:26:44.142338
- Title: Label noise (stochastic) gradient descent implicitly solves the Lasso
for quadratic parametrisation
- Title(参考訳): ラベルノイズ(確率的)勾配降下は二次パラメトリゼーションのためのラッソを暗黙的に解く
- Authors: Loucas Pillaud-Vivien, Julien Reygner, Nicolas Flammarion
- Abstract要約: 本研究では, 連続時間モデルを用いて, 4次パラメトリッドモデルのトレーニング力学におけるラベルノイズの役割について検討する。
本研究は,構造ノイズがより高度な一般化を誘導し,実際に観察されるダイナミックスの性能の向上を説明できることを示すものである。
- 参考スコア(独自算出の注目度): 14.244787327283335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the implicit bias of training algorithms is of crucial
importance in order to explain the success of overparametrised neural networks.
In this paper, we study the role of the label noise in the training dynamics of
a quadratically parametrised model through its continuous time version. We
explicitly characterise the solution chosen by the stochastic flow and prove
that it implicitly solves a Lasso program. To fully complete our analysis, we
provide nonasymptotic convergence guarantees for the dynamics as well as
conditions for support recovery. We also give experimental results which
support our theoretical claims. Our findings highlight the fact that structured
noise can induce better generalisation and help explain the greater
performances of stochastic dynamics as observed in practice.
- Abstract(参考訳): 過パラメータニューラルネットワークの成功を説明するためには、トレーニングアルゴリズムの暗黙のバイアスを理解することが重要である。
本稿では,2次パラメータモデルのトレーニングダイナミクスにおけるラベルノイズの役割について,その連続時間バージョンを通して検討する。
我々は確率的流れによって選択される解を明示的に特徴付け、ラッソプログラムを暗黙的に解くことを証明する。
解析を完全完了させるためには, 力学に対する非漸近収束保証と, 回復支援条件を提供する。
理論的主張を支持する実験結果も提示する。
本研究は,構造化雑音がより優れた一般化を誘導し,実際に観測される確率力学のより大きな性能を説明するのに役立つという事実を浮き彫りにする。
関連論文リスト
- Stochastic Gradient Flow Dynamics of Test Risk and its Exact Solution for Weak Features [8.645858565518155]
純勾配の試験リスク曲線と勾配流の差を計算する式を提供する。
我々は、動的に加えた項によって引き起こされる補正を明示的に計算する。
解析結果は離散時間勾配降下のシミュレーションと比較し,良好な一致を示した。
論文 参考訳(メタデータ) (2024-02-12T13:11:11Z) - Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。
また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Noisy Recurrent Neural Networks [45.94390701863504]
入力データによって駆動される微分方程式の離散化として,隠れ状態に雑音を注入することによって訓練されたリカレントニューラルネットワーク(RNN)について検討する。
合理的な仮定の下では、この暗黙の正則化はより平坦なミニマムを促進し、より安定な力学を持つモデルに偏りを呈し、分類タスクではより大きな分類マージンを持つモデルを好む。
本理論は, 各種入力摂動に対するロバスト性の向上と, 最先端性能の維持を両立させる実証実験により支持された。
論文 参考訳(メタデータ) (2021-02-09T15:20:50Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。