論文の概要: Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
- arxiv url: http://arxiv.org/abs/2306.08590v1
- Date: Wed, 14 Jun 2023 15:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:18:05.517921
- Title: Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
- Title(参考訳): 暗黙のバイアスを超えて:オンライン学習におけるsgdノイズの無意味さ
- Authors: Nikhil Vyas, Depen Morwani, Rosie Zhao, Gal Kaplun, Sham Kakade, Boaz
Barak
- Abstract要約: 大規模な学習率と小さなバッチサイズは、オンライン学習における暗黙のバイアスの利点を示さない。
我々の研究は、オンラインシステムにおけるSGDは、ノイズレス勾配流アルゴリズムの「ゴールドパス」に沿ってノイズのあるステップを取ることができることを示唆している。
- 参考スコア(独自算出の注目度): 11.131195227166463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of SGD in deep learning has been ascribed by prior works to the
implicit bias induced by high learning rate or small batch size ("SGD noise").
While prior works that focused on offline learning (i.e., multiple-epoch
training), we study the impact of SGD noise on online (i.e., single epoch)
learning. Through an extensive empirical analysis of image and language data,
we demonstrate that large learning rate and small batch size do not confer any
implicit bias advantages in online learning. In contrast to offline learning,
the benefits of SGD noise in online learning are strictly computational,
facilitating larger or more cost-effective gradient steps. Our work suggests
that SGD in the online regime can be construed as taking noisy steps along the
"golden path" of the noiseless gradient flow algorithm. We provide evidence to
support this hypothesis by conducting experiments that reduce SGD noise during
training and by measuring the pointwise functional distance between models
trained with varying SGD noise levels, but at equivalent loss values. Our
findings challenge the prevailing understanding of SGD and offer novel insights
into its role in online learning.
- Abstract(参考訳): ディープラーニングにおけるSGDの成功は、高い学習率または小さなバッチサイズによって引き起こされる暗黙のバイアス("SGD noise")に先行研究によって説明されている。
オフライン学習(マルチエポック学習)に焦点を当てた先行研究では,オンライン学習(単一エポック学習)におけるSGDノイズの影響について検討した。
画像と言語データの広範な実証分析を通じて,オンライン学習において,大きな学習率と小さなバッチサイズが暗黙のバイアスアドバンテージを生まないことを実証する。
オフライン学習とは対照的に、オンライン学習におけるSGDノイズの利点は厳密な計算であり、より大きく、よりコスト効率の良い勾配ステップを促進する。
本研究は,オンラインシステムにおけるsgdは,ノイズレス勾配流アルゴリズムの「黄金経路」に沿ってノイズステップをとることができることを示唆する。
この仮説を裏付ける証拠として,訓練中にsgdノイズを低減させる実験と,sgdノイズレベルは異なるが等価な損失値で訓練されたモデル間のポイントワイズ機能距離を測定する。
本研究は,SGDの一般的な理解に挑戦し,オンライン学習におけるその役割に関する新たな知見を提供する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - On Avoiding Local Minima Using Gradient Descent With Large Learning
Rates [48.42061343682201]
我々は、降下(GD)の成功につながるメカニズムの完全な理解は、明らかに大きなステップサイズを使用することの効果を考慮する必要があるかもしれないと論じる。
ステップサイズが大きいGDは、ステップサイズが小さいGDとは異なる軌道を辿り、世界最小値に収束することを示す。
また,ニューラルネットワークにGDを適用した場合,学習速度が小さい場合と大きい場合のトラジェクトリの違いも示す。
論文 参考訳(メタデータ) (2022-05-30T14:35:32Z) - Empirically explaining SGD from a line search perspective [21.35522589789314]
更新ステップ方向のラインに沿った全バッチ損失が極めてパラボリックであることを示す。
また、SGDが常にフルバッチロスでほぼ正確なライン検索を行う学習率があることも示しています。
論文 参考訳(メタデータ) (2021-03-31T14:54:22Z) - Eliminating Sharp Minima from SGD with Truncated Heavy-tailed Noise [39.27123042800951]
多くのディープラーニングタスクにおいて,重み付き勾配雑音の証拠が報告された。
切断したSGDは訓練軌道から局所的に鋭いミニマを効果的に除去できることを示す。
論文 参考訳(メタデータ) (2021-02-08T16:03:49Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。