論文の概要: Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
- arxiv url: http://arxiv.org/abs/2306.08590v2
- Date: Fri, 7 Jun 2024 14:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 23:04:47.949680
- Title: Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
- Title(参考訳): オンライン学習におけるSGDノイズの重要さ
- Authors: Nikhil Vyas, Depen Morwani, Rosie Zhao, Gal Kaplun, Sham Kakade, Boaz Barak,
- Abstract要約: 小さなバッチサイズは、オンライン学習における暗黙のバイアスの利点を示さない。
オフライン学習とは対照的に、オンライン学習におけるSGDノイズの利点は厳密な計算である。
これは、オンラインシステムにおけるSGDは、ノイズレス勾配降下アルゴリズムの「ゴールドパス」に沿ってノイズのあるステップを取ることができることを示唆している。
- 参考スコア(独自算出の注目度): 12.346966240009372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of SGD in deep learning has been ascribed by prior works to the implicit bias induced by finite batch sizes ("SGD noise"). While prior works focused on offline learning (i.e., multiple-epoch training), we study the impact of SGD noise on online (i.e., single epoch) learning. Through an extensive empirical analysis of image and language data, we demonstrate that small batch sizes do not confer any implicit bias advantages in online learning. In contrast to offline learning, the benefits of SGD noise in online learning are strictly computational, facilitating more cost-effective gradient steps. This suggests that SGD in the online regime can be construed as taking noisy steps along the "golden path" of the noiseless gradient descent algorithm. We study this hypothesis and provide supporting evidence in loss and function space. Our findings challenge the prevailing understanding of SGD and offer novel insights into its role in online learning.
- Abstract(参考訳): ディープラーニングにおけるSGDの成功は、有限バッチサイズによって誘導される暗黙のバイアス("SGD noise")の先行研究によって説明されている。
オフライン学習(マルチエポック学習)に焦点を当てた先行研究では,オンライン学習(単一エポック学習)におけるSGDノイズの影響について検討した。
画像および言語データの広範な経験的分析を通じて、オンライン学習において、小さなバッチサイズは暗黙のバイアスの利点を示さないことを示した。
オフライン学習とは対照的に、オンライン学習におけるSGDノイズの利点は厳密な計算であり、よりコスト効率の良い勾配ステップを促進する。
これは、オンラインシステムにおけるSGDは、ノイズレス勾配降下アルゴリズムの「ゴールドパス」に沿ってノイズのあるステップを取ることができることを示唆している。
この仮説を考察し、損失空間と関数空間の支持証拠を提供する。
本研究は,SGDの一般的な理解に挑戦し,オンライン学習におけるSGDの役割について新たな知見を提供する。
関連論文リスト
- A Clipped Trip: the Dynamics of SGD with Gradient Clipping in High-Dimensions [6.653325043862049]
本研究では,大次元内在型モデルとデータセット依存型次元概念の極限における学習力学の理論的解析を開発する。
ガウスノイズクリッピングではSGD性能が向上しないことを示す。
他のノイズの多い設定では、クリップングしきい値のチューニングにメリットがある。
論文 参考訳(メタデータ) (2024-06-17T16:50:22Z) - DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。
本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。
MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文 参考訳(メタデータ) (2024-04-04T11:29:05Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z) - EPARS: Early Prediction of At-risk Students with Online and Offline
Learning Behaviors [55.33024245762306]
リスク・アット・リスク(STAR)の早期予測は、ドロップアウトや自殺にタイムリーに介入するための有効かつ重要な手段である。
既存の作業は主に、学習プロセス全体を捉えるのに十分な包括的でないオンラインまたはオフラインの学習行動に依存する。
オンラインおよびオフライン学習行動のモデル化により,STARを1学期で早期に予測できる新しいアルゴリズム(EPARS)を提案する。
論文 参考訳(メタデータ) (2020-06-06T12:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。