論文の概要: Benign Overfitting in Single-Head Attention
- arxiv url: http://arxiv.org/abs/2410.07746v1
- Date: Thu, 10 Oct 2024 09:23:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:15:56.724679
- Title: Benign Overfitting in Single-Head Attention
- Title(参考訳): 単頭注意におけるベニグマオーバーフィッティング
- Authors: Roey Magen, Shuning Shang, Zhiwei Xu, Spencer Frei, Wei Hu, Gal Vardi,
- Abstract要約: 本研究では,トランスフォーマーの基本構造である単一頭部ソフトマックスアテンションモデルにおける良性オーバーフィッティングについて検討する。
適切な条件下では、勾配降下の2段階の後に既に分類された設定において、モデルが良性過剰適合を示すことが証明される。
- 参考スコア(独自算出の注目度): 27.297696573634976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The phenomenon of benign overfitting, where a trained neural network perfectly fits noisy training data but still achieves near-optimal test performance, has been extensively studied in recent years for linear models and fully-connected/convolutional networks. In this work, we study benign overfitting in a single-head softmax attention model, which is the fundamental building block of Transformers. We prove that under appropriate conditions, the model exhibits benign overfitting in a classification setting already after two steps of gradient descent. Moreover, we show conditions where a minimum-norm/maximum-margin interpolator exhibits benign overfitting. We study how the overfitting behavior depends on the signal-to-noise ratio (SNR) of the data distribution, namely, the ratio between norms of signal and noise tokens, and prove that a sufficiently large SNR is both necessary and sufficient for benign overfitting.
- Abstract(参考訳): トレーニングされたニューラルネットワークがノイズの多いトレーニングデータに完全に適合するが、依然としてほぼ最適なテスト性能を達成している良性オーバーフィッティングの現象は、近年リニアモデルや完全接続/畳み込みネットワークにおいて広く研究されている。
本研究では,トランスフォーマーの基本構成ブロックであるシングルヘッドソフトマックスアテンションモデルにおけるベニグオーバーフィッティングについて検討する。
適切な条件下では、勾配降下の2段階の後に既に分類された設定において、モデルが良性過剰適合を示すことが証明される。
さらに、最小ノルム/最大マルジン補間器が良性オーバーフィッティングを示す条件を示す。
本研究では,データ分布の信号対雑音比(SNR),すなわち信号と雑音のトークンのノルムの比に依存するかを検討した。
関連論文リスト
- Benign overfitting in leaky ReLU networks with moderate input dimension [23.522101525839687]
二元分類タスクにおけるヒンジ損失を訓練した2層リークReLUネットワークにおけるベニグオーバーフィッティングについて検討した。
モデルパラメータの信号対雑音比 (SNR) の条件を特徴付け, ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグナグニグニグニグニグナグニグニグニグニ
論文 参考訳(メタデータ) (2024-03-11T16:56:01Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。
最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文 参考訳(メタデータ) (2023-08-15T23:46:44Z) - From Tempered to Benign Overfitting in ReLU Neural Networks [41.271773069796126]
過自明なニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化することが観察される。
最近、NNの振舞いは「抑止過剰」と表現されることが多いと推測され、実証的に観察された。
論文 参考訳(メタデータ) (2023-05-24T13:36:06Z) - Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from
KKT Conditions for Margin Maximization [59.038366742773164]
ロジスティック損失の勾配流によって訓練された線形および漏洩ReLUは、KKT条件を満たすための暗黙の偏りを持つ。
本研究では、線形分類器や2層リークReLUネットワークにおいて、これらの条件の満足度が良性オーバーフィットを意味するような設定を多数確立する。
論文 参考訳(メタデータ) (2023-03-02T18:24:26Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。