論文の概要: Implicit Bias of SignGD and Adam on Multiclass Separable Data
- arxiv url: http://arxiv.org/abs/2502.04664v1
- Date: Fri, 07 Feb 2025 05:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:32.595327
- Title: Implicit Bias of SignGD and Adam on Multiclass Separable Data
- Title(参考訳): 多クラス分離データにおけるSignGDとAdamのインプシットバイアス
- Authors: Chen Fan, Mark Schmidt, Christos Thrampoulidis,
- Abstract要約: 勾配に基づく異なる手法はゼロの訓練誤差を達成できるが、異なる一般化特性を誘導する異なる解に収束する。
多クラス交叉エントロピー最小化におけるAdamとSign Gradient Descentの暗黙バイアスを特徴付ける。
我々はその結果を一般のp-ノルム正規化降下アルゴリズムおよび他の多クラス損失に拡張する。
- 参考スコア(独自算出の注目度): 33.082961718280245
- License:
- Abstract: In the optimization of overparameterized models, different gradient-based methods can achieve zero training error yet converge to distinctly different solutions inducing different generalization properties. While a decade of research on implicit optimization bias has illuminated this phenomenon in various settings, even the foundational case of linear classification with separable data still has important open questions. We resolve a fundamental gap by characterizing the implicit bias of both Adam and Sign Gradient Descent in multi-class cross-entropy minimization: we prove that their iterates converge to solutions that maximize the margin with respect to the classifier matrix's max-norm and characterize the rate of convergence. We extend our results to general p-norm normalized steepest descent algorithms and to other multi-class losses.
- Abstract(参考訳): 過パラメータ化モデルの最適化において、異なる勾配に基づく手法はゼロトレーニング誤差を達成できるが、異なる一般化特性を誘導する異なる解に収束する。
暗黙の最適化バイアスに関する10年間の研究は、様々な環境でこの現象を照らしているが、分離可能なデータによる線形分類の基本的事例でさえも、重要なオープンな疑問を持っている。
我々は、Adam と Sign Gradient Descent の両方の暗黙のバイアスを多クラス交叉エントロピー最小化で特徴づけることにより、基本的なギャップを解消する: それらの反復が、分類器行列の最大ノルムに対するマージンを最大化する解に収束し、収束率を特徴づけることを証明する。
我々はその結果を一般のp-ノルム正規化降下アルゴリズムおよび他の多クラス損失に拡張する。
関連論文リスト
- Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Precise Asymptotic Generalization for Multiclass Classification with
Overparameterized Linear Models [4.093769373833101]
Subramanian et al.'22 の予想では、データポイント、特徴、クラスの数はすべて一緒になる。
我々の新しい下限は情報理論の強い逆に似ており、それらは誤分類率が0か1に近づくことを証明している。
厳密な解析の鍵はハンソン・ライトの不等式の新しい変種であり、スパースラベルの多重クラス問題に広く有用である。
論文 参考訳(メタデータ) (2023-06-23T00:59:15Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Improving Generalization via Uncertainty Driven Perturbations [107.45752065285821]
トレーニングデータポイントの不確実性による摂動について考察する。
損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えてはならない。
線形モデルにおいて,UDPがロバスト性マージン決定を達成することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:22:08Z) - Sharp global convergence guarantees for iterative nonconvex
optimization: A Gaussian process perspective [30.524043513721168]
回帰モデルのクラスに対する反復アルゴリズムの収束を解析するための一般的なレシピを開発する。
決定論的には、有限サンプル状態におけるアルゴリズムの収束率と最終的なエラーフロアの両方を正確にキャプチャする。
我々は、更新の交互化に基づく高次アルゴリズムと、下位次数に基づく一次アルゴリズムの両方に対して、鋭い収束率を示す。
論文 参考訳(メタデータ) (2021-09-20T21:48:19Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - To Each Optimizer a Norm, To Each Norm its Generalization [31.682969645989512]
過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-11T21:07:38Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。