論文の概要: Multiclass Loss Geometry Matters for Generalization of Gradient Descent in Separable Classification
- arxiv url: http://arxiv.org/abs/2505.22359v1
- Date: Wed, 28 May 2025 13:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.635369
- Title: Multiclass Loss Geometry Matters for Generalization of Gradient Descent in Separable Classification
- Title(参考訳): 分別的分類におけるグラディエントDescenceの一般化のための多クラス損失幾何学
- Authors: Matan Schliserman, Tomer Koren,
- Abstract要約: 分離線形分類のための非正規化手法の一般化性能について検討する。
収束速度は損失テンプレートの幾何に大きく影響されていることを示す。
- 参考スコア(独自算出の注目度): 27.33243506775655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the generalization performance of unregularized gradient methods for separable linear classification. While previous work mostly deal with the binary case, we focus on the multiclass setting with $k$ classes and establish novel population risk bounds for Gradient Descent for loss functions that decay to zero. In this setting, we show risk bounds that reveal that convergence rates are crucially influenced by the geometry of the loss template, as formalized by Wang and Scott (2024), rather than of the loss function itself. Particularly, we establish risk upper bounds that holds for any decay rate of the loss whose template is smooth with respect to the $p$-norm. In the case of exponentially decaying losses, our results indicates a contrast between the $p=\infty$ case, where the risk exhibits a logarithmic dependence on $k$, and $p=2$ where the risk scales linearly with $k$. To establish this separation formally, we also prove a lower bound in the latter scenario, demonstrating that the polynomial dependence on $k$ is unavoidable. Central to our analysis is a novel bound on the Rademacher complexity of low-noise vector-valued linear predictors with a loss template smooth w.r.t.~general $p$-norms.
- Abstract(参考訳): 分離線形分類のための非正規化勾配法の一般化性能について検討する。
これまでの研究は主に二項のケースを扱うが、我々は$k$クラスのマルチクラス設定に焦点をあて、ゼロに崩壊する損失関数に対するグラディエント・ダイアンス(Gradient Descent)のための新しい集団リスク境界を確立する。
この設定では、損失関数自身ではなく、Wang と Scott (2024) によって定式化されたように、収束速度が損失テンプレートの幾何学に決定的に影響されることを明らかにするリスク境界を示す。
特に、$p$-ノルムに対してテンプレートが滑らかな損失の崩壊率を保ったリスク上限を確立する。
指数的に損失が減少する場合には、リスクが$k$と$p=2$の対数依存を示す$p=\infty$と、リスクが$k$と線形にスケールする$p=2$との対比を示す。
この分離を正式に確立するために、後者のシナリオでは下界を証明し、$k$の多項式依存が避けられないことを示す。
我々の分析の中心は、損失テンプレートを滑らかにw.r.t.~ General $p$-normsとする低ノイズベクトル値線形予測器のラデマッハ複雑性に縛られている。
関連論文リスト
- Any-stepsize Gradient Descent for Separable Data under Fenchel--Young Losses [17.835960292396255]
emphFenchel-Young損失の枠組みに基づく一般損失関数に対して任意のステップの勾配収束を示す。
我々は、自己有界性の代わりに損失関数の分岐マージンによって、これらのより良いレートが可能であると論じる。
論文 参考訳(メタデータ) (2025-02-07T12:52:12Z) - Adversarial Contextual Bandits Go Kernelized [21.007410990554522]
本研究では、ヒルベルト核空間に属する損失関数を組み込むことにより、逆線形文脈帯域におけるオンライン学習の問題を一般化する。
本稿では,損失関数を推定し,ほぼ最適の後悔の保証を再現するための新しい楽観的偏り推定器を提案する。
論文 参考訳(メタデータ) (2023-10-02T19:59:39Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Tight Risk Bounds for Gradient Descent on Separable Data [33.593203156666746]
分離線形分類に適用した非正規化勾配法の一般化特性について検討した。
リスク低い境界は、この文脈で最初のものであり、与えられたテール崩壊率に対する上限の厳密性を確立する。
論文 参考訳(メタデータ) (2023-03-02T10:31:58Z) - A Non-Asymptotic Moreau Envelope Theory for High-Dimensional Generalized
Linear Models [33.36787620121057]
ガウス空間の任意のクラスの線型予測器を示す新しい一般化境界を証明した。
私たちは、Zhou et al. (2021) の「最適化率」を直接回復するために、有限サンプルバウンドを使用します。
ローカライズされたガウス幅を用いた有界一般化の適用は、一般に経験的リスク最小化に対してシャープであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:16:55Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Localization, Convexity, and Star Aggregation [0.0]
オフセットラデマッハ複体は、正方形損失に対する鋭く線形依存的な上界を示すことが示されている。
統計的設定では、オフセット境界は一定の均一な凸性を満たす任意の損失に一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-05-19T00:47:59Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。