Fugu-MT 論文翻訳(概要): Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data

論文の概要: Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data

arxiv url: http://arxiv.org/abs/2502.04664v3
Date: Mon, 19 May 2025 03:35:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 17:08:52.050259
Title: Implicit Bias of Spectral Descent and Muon on Multiclass Separable Data
Title（参考訳）: マルチクラス分離データにおけるスペクトル線とミューオンの入射バイアス
Authors: Chen Fan, Mark Schmidt, Christos Thrampoulidis,
Abstract要約: p-ノルム正規化急勾配 (NSD) と運動量急勾配 (NMD) に対する暗黙的最適化バイアスの完全な特徴付けを行う。これらのアルゴリズムは行列の p-ノルムに関してマージンを最大化する解に収束することを示した。
参考スコア（独自算出の注目度）: 33.082961718280245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Different gradient-based methods for optimizing overparameterized models can all achieve zero training error yet converge to distinctly different solutions inducing different generalization properties. We provide the first complete characterization of implicit optimization bias for p-norm normalized steepest descent (NSD) and momentum steepest descent (NMD) algorithms in multi-class linear classification with cross-entropy loss. Our key theoretical contribution is proving that these algorithms converge to solutions maximizing the margin with respect to the classifier matrix's p-norm, with established convergence rates. These results encompass important special cases including Spectral Descent and Muon, which we show converge to max-margin solutions with respect to the spectral norm. A key insight of our contribution is that the analysis of general entry-wise and Schatten p-norms can be reduced to the analysis of NSD/NMD with max-norm by exploiting a natural ordering property between all p-norms relative to the max-norm and its dual sum-norm. For the specific case of descent with respect to the max-norm, we further extend our analysis to include preconditioning, showing that Adam converges to the matrix's max-norm solution. Our results demonstrate that the multi-class linear setting, which is inherently richer than the binary counterpart, provides the most transparent framework for studying implicit biases of matrix-parameter optimization algorithms.
Abstract（参考訳）: 過パラメータ化モデルを最適化するための勾配に基づく異なる手法は、全てゼロトレーニング誤差を達成できるが、異なる一般化特性を誘導する異なる解に収束する。クロスエントロピー損失を有する多クラス線形分類において,p-ノルム正規化急降下(NSD)と運動量急降下(NMD)アルゴリズムに対する暗黙的最適化バイアスの完全な特徴付けを行う。我々の理論的な重要な貢献は、これらのアルゴリズムが、確立された収束率で、分類器行列のp-ノルムに関してマージンを最大化する解に収束することを証明することである。これらの結果は、スペクトル Descent や Muon を含む重要な特殊ケースを含み、スペクトルノルムに関して最大有理解に収束することを示す。コントリビューションの重要な洞察は、一般エントリーワイドとシャッテン p-ノルムの分析は、最大ノルムとその双対和ノルムに対する全ての p-ノルムの間の自然順序性を利用することにより、最大ノルムを持つ NSD/NMD の解析に還元できるということである。最大ノルムに関して降下する特定の場合については、Adam が行列の最大ノルム解に収束することを示すプレコンディショニングを含むように解析をさらに拡張する。本結果は,行列パラメータ最適化アルゴリズムの暗黙的バイアスを研究する上で,本質的に二進法よりもリッチな多クラス線形設定が,最も透過的なフレームワークであることを示す。

関連論文リスト

Extreme value theory for singular subspace estimation in the matrix denoising model [0.4297070083645049]
行列デノナイジングモデルにおける特異部分空間の細粒度推定について検討する。我々は分布論を用いて、先頭特異ベクトルに符号化された低ランク信号構造の仮説を検証した。
論文参考訳（メタデータ） (2025-07-26T15:28:36Z)
Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文参考訳（メタデータ） (2024-04-16T20:01:10Z)
Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文参考訳（メタデータ） (2024-02-14T16:10:42Z)
Convex Parameter Estimation of Perturbed Multivariate Generalized Gaussian Distributions [18.95928707619676]
本稿では,MGGDパラメータの確立された特性を持つ凸定式化を提案する。提案するフレームワークは, 精度行列, 平均, 摂動の様々な正規化を組み合わせ, 柔軟である。実験により, 平均ベクトルパラメータに対して, 同様の性能でより正確な精度と共分散行列推定を行うことができた。
論文参考訳（メタデータ） (2023-12-12T18:08:04Z)
Flat Minima in Linear Estimation and an Extended Gauss Markov Theorem [0.0]
我々は、核とスペクトルのノルムの場合の最適推定器の単純で明示的な公式を導出する。我々は、複数のランダム行列アンサンブルにおける一般化誤差を解析的に導出し、リッジ回帰との比較を行った。
論文参考訳（メタデータ） (2023-11-18T14:45:06Z)
Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文参考訳（メタデータ） (2023-08-31T17:57:50Z)
Spectral Estimators for Structured Generalized Linear Models via Approximate Message Passing [28.91482208876914]
本研究では,高次元一般化線形モデルにおけるパラメータ推定の問題について考察する。広く使われているにもかかわらず、厳密なパフォーマンス特性とデータ前処理の原則が、構造化されていない設計でのみ利用可能である。
論文参考訳（メタデータ） (2023-08-28T11:49:23Z)
Precise Asymptotic Generalization for Multiclass Classification with Overparameterized Linear Models [4.093769373833101]
Subramanian et al.'22 の予想では、データポイント、特徴、クラスの数はすべて一緒になる。我々の新しい下限は情報理論の強い逆に似ており、それらは誤分類率が0か1に近づくことを証明している。厳密な解析の鍵はハンソン・ライトの不等式の新しい変種であり、スパースラベルの多重クラス問題に広く有用である。
論文参考訳（メタデータ） (2023-06-23T00:59:15Z)
The Inductive Bias of Flatness Regularization for Deep Matrix Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文参考訳（メタデータ） (2023-06-22T23:14:57Z)
The Implicit Bias of Batch Normalization in Linear Models and Two-layer Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文参考訳（メタデータ） (2023-06-20T16:58:00Z)
Stability vs Implicit Bias of Gradient Methods on Separable Data and Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文参考訳（メタデータ） (2022-02-27T19:56:36Z)
Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文参考訳（メタデータ） (2021-12-29T18:46:52Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Learning Gaussian Mixtures with Generalised Linear Models: Precise Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。実験的リスク最小化による高次元推定器の精度を実証する。合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文参考訳（メタデータ） (2021-06-07T16:53:56Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
Adaptive and Oblivious Randomized Subspace Methods for High-Dimensional Optimization: Sharp Analysis and Lower Bounds [37.03247707259297]
2次統計が入力データを反映する相関ランダム行列をサンプリングすることにより、適切な適応部分空間を生成することができる。ランダム化された近似の相対誤差は、データ行列のスペクトルの観点から厳密に特徴付けることができることを示した。実験の結果,提案手法は様々な機械学習および最適化問題において,大幅な高速化を可能にすることがわかった。
論文参考訳（メタデータ） (2020-12-13T13:02:31Z)
Understanding Implicit Regularization in Over-Parameterized Single Index Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。暗黙正則化現象の理論的保証を提供する。
論文参考訳（メタデータ） (2020-07-16T13:27:47Z)
When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文参考訳（メタデータ） (2020-06-18T17:57:26Z)
To Each Optimizer a Norm, To Each Norm its Generalization [31.682969645989512]
過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
論文参考訳（メタデータ） (2020-06-11T21:07:38Z)
Convergence of adaptive algorithms for weakly convex constrained optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文参考訳（メタデータ） (2020-06-11T17:43:19Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。