Fugu-MT 論文翻訳(概要): The Implicit Bias of Gradient Descent on Separable Data

論文の概要: The Implicit Bias of Gradient Descent on Separable Data

arxiv url: http://arxiv.org/abs/1710.10345v6
Date: Tue, 16 Apr 2024 08:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 20:15:17.773670
Title: The Implicit Bias of Gradient Descent on Separable Data
Title（参考訳）: 分別データに基づくグラディエントDescenceのインシシシトバイアス
Authors: Daniel Soudry, Elad Hoffer, Mor Shpigel Nacson, Suriya Gunasekar, Nathan Srebro,
Abstract要約: 予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
参考スコア（独自算出の注目度）: 44.98410310356165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We examine gradient descent on unregularized logistic regression problems, with homogeneous linear predictors on linearly separable datasets. We show the predictor converges to the direction of the max-margin (hard margin SVM) solution. The result also generalizes to other monotone decreasing loss functions with an infimum at infinity, to multi-class problems, and to training a weight layer in a deep network in a certain restricted setting. Furthermore, we show this convergence is very slow, and only logarithmic in the convergence of the loss itself. This can help explain the benefit of continuing to optimize the logistic or cross-entropy loss even after the training error is zero and the training loss is extremely small, and, as we show, even if the validation loss increases. Our methodology can also aid in understanding implicit regularization n more complex models and with other optimization methods.
Abstract（参考訳）: 線形分離可能なデータセット上での等質線形予測器を用いた非正規化ロジスティック回帰問題の勾配勾配について検討した。予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。この結果は、無限遠で無限小を持つ他のモノトン減少損失関数にも一般化され、多クラス問題にも応用され、一定の制限された設定でディープネットワーク内の重み層を訓練する。さらに、この収束は非常に遅く、損失自体の収束における対数のみを示す。これは、トレーニングエラーがゼロでトレーニング損失が極めて小さく、検証損失が増加しても、ロジスティックまたはクロスエントロピー損失の最適化を継続するメリットを説明するのに役立つ。我々の手法は、より複雑なモデルや他の最適化手法で暗黙の正規化を理解するのにも役立ちます。

関連論文リスト

Approximate Gradient Coding for Distributed Learning with Heterogeneous Stragglers [8.873449722727026]
分散学習におけるストラグラー問題を軽減するため,最適に構造化された勾配符号化方式を提案する。提案手法はストラグラーの影響を著しく低減し,既存の手法と比較して収束を加速する。
論文参考訳（メタデータ） (2025-10-26T05:32:18Z)
Gradient Descent Converges Linearly to Flatter Minima than Gradient Flow in Shallow Linear Networks [0.0]
本研究では,1つの入力と出力を持つディープ2線形ニューラルネットワークの勾配勾配勾配ダイナミクスについて検討する。また, GD は, たとえ大きなステップサイズであっても, 訓練損失の最小値に比例して直線的に収束することを示した。
論文参考訳（メタデータ） (2025-01-15T20:43:36Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Gradient Descent Converges Linearly for Logistic Regression on Separable Data [17.60502131429094]
変動学習率による勾配勾配降下は損失$f(x) leq 1.1 cdot f(x*) + epsilon$ロジスティック回帰目標を示す。また、ロジスティックなレグレッションを緩やかなレグレッションに適用し、スペルシ・エラーのトレードオフを指数関数的に改善する。
論文参考訳（メタデータ） (2023-06-26T02:15:26Z)
Fast Convergence in Learning Two-Layer Neural Networks with Separable Data [37.908159361149835]
2層ニューラルネット上の正規化勾配勾配について検討した。正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
論文参考訳（メタデータ） (2023-05-22T20:30:10Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文参考訳（メタデータ） (2023-04-09T20:36:13Z)
Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文参考訳（メタデータ） (2023-01-29T20:54:03Z)
AdaLoss: A computationally-efficient and provably convergent adaptive gradient method [7.856998585396422]
本稿では,損失関数の情報を用いて数値的な調整を行う,計算に親しみやすい学習スケジュール"AnomidaLoss"を提案する。テキストおよび制御問題に対するLSTMモデルの適用による数値実験の範囲の検証を行う。
論文参考訳（メタデータ） (2021-09-17T01:45:25Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文参考訳（メタデータ） (2020-12-01T19:02:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。