Fugu-MT 論文翻訳(概要): Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning

論文の概要: Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning

arxiv url: http://arxiv.org/abs/2306.08590v1
Date: Wed, 14 Jun 2023 15:53:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 18:18:05.517921
Title: Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning
Title（参考訳）: 暗黙のバイアスを超えて:オンライン学習におけるsgdノイズの無意味さ
Authors: Nikhil Vyas, Depen Morwani, Rosie Zhao, Gal Kaplun, Sham Kakade, Boaz Barak
Abstract要約: 大規模な学習率と小さなバッチサイズは、オンライン学習における暗黙のバイアスの利点を示さない。我々の研究は、オンラインシステムにおけるSGDは、ノイズレス勾配流アルゴリズムの「ゴールドパス」に沿ってノイズのあるステップを取ることができることを示唆している。
参考スコア（独自算出の注目度）: 11.131195227166463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The success of SGD in deep learning has been ascribed by prior works to the implicit bias induced by high learning rate or small batch size ("SGD noise"). While prior works that focused on offline learning (i.e., multiple-epoch training), we study the impact of SGD noise on online (i.e., single epoch) learning. Through an extensive empirical analysis of image and language data, we demonstrate that large learning rate and small batch size do not confer any implicit bias advantages in online learning. In contrast to offline learning, the benefits of SGD noise in online learning are strictly computational, facilitating larger or more cost-effective gradient steps. Our work suggests that SGD in the online regime can be construed as taking noisy steps along the "golden path" of the noiseless gradient flow algorithm. We provide evidence to support this hypothesis by conducting experiments that reduce SGD noise during training and by measuring the pointwise functional distance between models trained with varying SGD noise levels, but at equivalent loss values. Our findings challenge the prevailing understanding of SGD and offer novel insights into its role in online learning.
Abstract（参考訳）: ディープラーニングにおけるSGDの成功は、高い学習率または小さなバッチサイズによって引き起こされる暗黙のバイアス("SGD noise")に先行研究によって説明されている。オフライン学習(マルチエポック学習)に焦点を当てた先行研究では,オンライン学習(単一エポック学習)におけるSGDノイズの影響について検討した。画像と言語データの広範な実証分析を通じて,オンライン学習において,大きな学習率と小さなバッチサイズが暗黙のバイアスアドバンテージを生まないことを実証する。オフライン学習とは対照的に、オンライン学習におけるSGDノイズの利点は厳密な計算であり、より大きく、よりコスト効率の良い勾配ステップを促進する。本研究は,オンラインシステムにおけるsgdは,ノイズレス勾配流アルゴリズムの「黄金経路」に沿ってノイズステップをとることができることを示唆する。この仮説を裏付ける証拠として,訓練中にsgdノイズを低減させる実験と,sgdノイズレベルは異なるが等価な損失値で訓練されたモデル間のポイントワイズ機能距離を測定する。本研究は,SGDの一般的な理解に挑戦し,オンライン学習におけるその役割に関する新たな知見を提供する。

関連論文リスト

Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。 MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文参考訳（メタデータ） (2024-04-04T11:29:05Z)
Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-07T08:49:12Z)
SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文参考訳（メタデータ） (2022-10-11T11:00:04Z)
Recursive Least-Squares Estimator-Aided Online Learning for Visual Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文参考訳（メタデータ） (2021-12-28T06:51:18Z)
Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文参考訳（メタデータ） (2021-11-23T18:10:48Z)
Online Continual Learning with Natural Distribution Shifts: An Empirical Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2021-08-20T06:17:20Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Low-Rank Robust Online Distance/Similarity Learning based on the Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文参考訳（メタデータ） (2020-10-07T08:38:34Z)
EPARS: Early Prediction of At-risk Students with Online and Offline Learning Behaviors [55.33024245762306]
リスク・アット・リスク(STAR)の早期予測は、ドロップアウトや自殺にタイムリーに介入するための有効かつ重要な手段である。既存の作業は主に、学習プロセス全体を捉えるのに十分な包括的でないオンラインまたはオフラインの学習行動に依存する。オンラインおよびオフライン学習行動のモデル化により,STARを1学期で早期に予測できる新しいアルゴリズム(EPARS)を提案する。
論文参考訳（メタデータ） (2020-06-06T12:56:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。