論文の概要: Benign Overfitting under Learning Rate Conditions for $α$ Sub-exponential Input
- arxiv url: http://arxiv.org/abs/2409.00733v2
- Date: Wed, 16 Oct 2024 07:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:46:24.904617
- Title: Benign Overfitting under Learning Rate Conditions for $α$ Sub-exponential Input
- Title(参考訳): サブ指数入力に対するα$の学習率条件下での便益オーバーフィッティング
- Authors: Kota Okudo, Kei Kobayashi,
- Abstract要約: 重み付けされた入力の設定でも、良心的な過剰適合が持続することを示す。
これらの結果は、より現実的なデータ環境における現象のより深い理解に寄与する。
- 参考スコア(独自算出の注目度): 1.2430809884830318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the phenomenon of benign overfitting in binary classification problems with heavy-tailed input distributions, extending the analysis of maximum margin classifiers to $\alpha$ sub-exponential distributions ($\alpha \in (0, 2]$). This generalizes previous work focused on sub-gaussian inputs. We provide generalization error bounds for linear classifiers trained using gradient descent on unregularized logistic loss in this heavy-tailed setting. Our results show that, under certain conditions on the dimensionality $p$ and the distance between the centers of the distributions, the misclassification error of the maximum margin classifier asymptotically approaches the noise level, the theoretical optimal value. Moreover, we derive an upper bound on the learning rate $\beta$ for benign overfitting to occur and show that as the tail heaviness of the input distribution $\alpha$ increases, the upper bound on the learning rate decreases. These results demonstrate that benign overfitting persists even in settings with heavier-tailed inputs than previously studied, contributing to a deeper understanding of the phenomenon in more realistic data environments.
- Abstract(参考訳): 本稿では、重み付き入力分布を持つ二項分類問題における良性過剰適合現象を考察し、最大利得分類器の分析を$\alpha$サブ指数分布(0, 2]$)に拡張する。
これはガウス以下の入力に焦点をあてた以前の研究を一般化する。
この重み付き設定における非正規化ロジスティック損失に対する勾配勾配を用いた線形分類器の一般化誤差境界を提供する。
その結果,次元$p$と分布の中心間の距離が一定条件下では,最大利得分類器の誤分類誤差が漸近的に雑音レベルに近づき,理論的最適値となることがわかった。
さらに,入力分布のテールヘビーネスが増加するにつれて,学習速度の上限が減少することを示す。
これらの結果から, 前回研究したよりも重み付け入力の設定においても, 良性過剰適合が持続し, より現実的なデータ環境における現象のより深い理解に寄与することが示唆された。
関連論文リスト
- Deep learning from strongly mixing observations: Sparse-penalized regularization and minimax optimality [0.0]
ディープニューラルネットワーク予測器のスパースペナル化正規化について検討する。
正方形と幅広い損失関数を扱う。
論文 参考訳(メタデータ) (2024-06-12T15:21:51Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Heavy-tailed denoising score matching [5.371337604556311]
ランゲヴィン力学における複数のノイズレベルを連続的に初期化する反復的雑音スケーリングアルゴリズムを開発した。
実用面では、重み付きDSMを用いることで、スコア推定、制御可能なサンプリング収束、不均衡データセットに対するよりバランスのない非条件生成性能が改善される。
論文 参考訳(メタデータ) (2021-12-17T22:04:55Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Non-Convex SGD Learns Halfspaces with Adversarial Label Noise [50.659479930171585]
分布固有モデルにおいて,同種半空間の学習を代理する問題に対する解を示す。
任意の凸分布において、誤分類誤差は本質的にハーフスペースの誤分類誤差につながることを示す。
論文 参考訳(メタデータ) (2020-06-11T18:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。