論文の概要: Implicit bias of Normalized Steepest Descent in Multiclass Classification: Sign Descent, Spectral Descent, and Adam
- arxiv url: http://arxiv.org/abs/2502.04664v2
- Date: Sat, 26 Apr 2025 05:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.13067
- Title: Implicit bias of Normalized Steepest Descent in Multiclass Classification: Sign Descent, Spectral Descent, and Adam
- Title(参考訳): 多クラス分類における正規化ステッペスト蛍光の入射バイアス:サイン蛍光、スペクトル蛍光、アダム
- Authors: Chen Fan, Mark Schmidt, Christos Thrampoulidis,
- Abstract要約: 我々は,多クラス交叉エントロピー最小化におけるAdamとSignGDの暗黙バイアスを特徴づける。
我々は解析をp-ノルム正規化急降下法(NSD)アルゴリズムに一般化する。
鍵となる洞察は、一般的なエントリーワイドとシャッテン p-ノルムの分析は、最大ノルムを持つNSDの分析に還元できるということである。
- 参考スコア(独自算出の注目度): 33.082961718280245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the optimization of overparameterized models, different gradient-based methods can achieve zero training error yet converge to distinctly different solutions inducing different generalization properties. Despite a decade of research on implicit optimization bias, important questions remain open even in the foundational case of linear classification with separable data. We address this gap by characterizing the implicit bias of both Adam and Sign gradient descent (SignGD) in multi-class cross-entropy minimization: we prove that their iterates converge to solutions maximizing the margin with respect to the classifier matrix's max-norm, and we establish the corresponding convergence rates. We then generalize our analysis to p-norm normalized steepest descent (NSD) algorithms. This includes Spectral Descent, which we show converges to the max-margin solution with respect to the spectral norm. A key insight is that the analysis of general entry-wise and Schatten p-norms can be reduced to the analysis of NSD with max-norm (i.e., SignGD) by exploiting a natural ordering property between all p-norms relative to the max-norm and its dual sum-norm. Our results demonstrate that the multi-class linear setting, which is inherently richer than the binary counterpart, provides the most transparent playground for studying implicit biases of matrix-parameter optimization algorithms.
- Abstract(参考訳): 過パラメータ化モデルの最適化において、異なる勾配に基づく手法はゼロトレーニング誤差を達成できるが、異なる一般化特性を誘導する異なる解に収束する。
暗黙の最適化バイアスに関する10年間の研究にもかかわらず、分離可能なデータによる線形分類の基本的な場合においても、重要な疑問は未解決のままである。
我々は,多クラス交叉エントロピー最小化におけるAdamとSign gradient descent (SignGD)の両方の暗黙バイアスを特徴付けることにより,このギャップに対処する: それらの反復が,分類器行列の最大ノルムに対するマージンを最大化する解に収束することを証明し,対応する収束率を確立する。
解析をp-ノルム正規化急降下法(NSD)アルゴリズムに一般化する。
これにはスペクトル Descent が含まれており、スペクトルノルムに関して最大マルジン解に収束することを示す。
重要な洞察は、一般のエントリーワイドとシャッテンの p-ノルムの解析は、最大ノルムとその双対和ノルムに対するすべての p-ノルムの間の自然順序性を利用することにより、最大ノルム(すなわち SignGD)による NSD の解析に還元できるということである。
本結果は,行列パラメータ最適化アルゴリズムの暗黙的偏差を研究する上で,2進法よりも本質的にリッチなマルチクラス線形設定が,最も透過的な遊び場を提供することを示す。
関連論文リスト
- Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Convex Parameter Estimation of Perturbed Multivariate Generalized
Gaussian Distributions [18.95928707619676]
本稿では,MGGDパラメータの確立された特性を持つ凸定式化を提案する。
提案するフレームワークは, 精度行列, 平均, 摂動の様々な正規化を組み合わせ, 柔軟である。
実験により, 平均ベクトルパラメータに対して, 同様の性能でより正確な精度と共分散行列推定を行うことができた。
論文 参考訳(メタデータ) (2023-12-12T18:08:04Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Spectral Estimators for Structured Generalized Linear Models via Approximate Message Passing [28.91482208876914]
本研究では,高次元一般化線形モデルにおけるパラメータ推定の問題について考察する。
広く使われているにもかかわらず、厳密なパフォーマンス特性とデータ前処理の原則が、構造化されていない設計でのみ利用可能である。
論文 参考訳(メタデータ) (2023-08-28T11:49:23Z) - Precise Asymptotic Generalization for Multiclass Classification with
Overparameterized Linear Models [4.093769373833101]
Subramanian et al.'22 の予想では、データポイント、特徴、クラスの数はすべて一緒になる。
我々の新しい下限は情報理論の強い逆に似ており、それらは誤分類率が0か1に近づくことを証明している。
厳密な解析の鍵はハンソン・ライトの不等式の新しい変種であり、スパースラベルの多重クラス問題に広く有用である。
論文 参考訳(メタデータ) (2023-06-23T00:59:15Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Adaptive and Oblivious Randomized Subspace Methods for High-Dimensional
Optimization: Sharp Analysis and Lower Bounds [37.03247707259297]
2次統計が入力データを反映する相関ランダム行列をサンプリングすることにより、適切な適応部分空間を生成することができる。
ランダム化された近似の相対誤差は、データ行列のスペクトルの観点から厳密に特徴付けることができることを示した。
実験の結果,提案手法は様々な機械学習および最適化問題において,大幅な高速化を可能にすることがわかった。
論文 参考訳(メタデータ) (2020-12-13T13:02:31Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - To Each Optimizer a Norm, To Each Norm its Generalization [31.682969645989512]
過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-11T21:07:38Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。