論文の概要: Understanding Generalization in Transformers: Error Bounds and Training Dynamics Under Benign and Harmful Overfitting
- arxiv url: http://arxiv.org/abs/2502.12508v1
- Date: Tue, 18 Feb 2025 03:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:26.320679
- Title: Understanding Generalization in Transformers: Error Bounds and Training Dynamics Under Benign and Harmful Overfitting
- Title(参考訳): 変圧器の一般化の理解--良性および有害なオーバーフィッティング下での誤差境界とトレーニングダイナミクス
- Authors: Yingying Zhang, Zhenyu Wu, Jian Li, Yong Liu,
- Abstract要約: ラベル付きフリップノイズをもつ2層変圧器の一般化理論を開発する。
信号-雑音比の異なるベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグ
我々は、変圧器の試験誤差に影響を与える重要な要因を特定するために、広範囲な実験を行う。
- 参考スコア(独自算出の注目度): 36.149708427591534
- License:
- Abstract: Transformers serve as the foundational architecture for many successful large-scale models, demonstrating the ability to overfit the training data while maintaining strong generalization on unseen data, a phenomenon known as benign overfitting. However, research on how the training dynamics influence error bounds within the context of benign overfitting has been limited. This paper addresses this gap by developing a generalization theory for a two-layer transformer with labeled flip noise. Specifically, we present generalization error bounds for both benign and harmful overfitting under varying signal-to-noise ratios (SNR), where the training dynamics are categorized into three distinct stages, each with its corresponding error bounds. Additionally, we conduct extensive experiments to identify key factors that influence test errors in transformers. Our experimental results align closely with the theoretical predictions, validating our findings.
- Abstract(参考訳): トランスフォーマーは、多くの成功した大規模モデルの基盤アーキテクチャとして機能し、目に見えないデータに対する強力な一般化を維持しながら、トレーニングデータを過度に適合させる能力を示す。
しかし、トレーニングダイナミクスが過度なオーバーフィッティングの文脈内でエラーにどのように影響するかの研究は限られている。
本稿では,フリップノイズをラベル付けした2層変圧器の一般化理論を開発することにより,このギャップを解消する。
具体的には,信号対雑音比の異なる信号対雑音比(SNR)下での良性および有害なオーバーフィッティングの一般化誤差境界を示す。
さらに, 変圧器の試験誤差に影響を与える要因を特定するために, 広範囲な実験を行った。
実験結果は理論的予測と密接に一致し,その妥当性を検証した。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixtures [20.980349268151546]
本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。
本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文 参考訳(メタデータ) (2024-10-15T16:57:14Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On robust overfitting: adversarial training induced distribution matters [32.501773057885735]
敵の訓練は、修正された損失関数を持つ標準的な訓練と見なすことができる。
しかし、その一般化誤差は標準損失下での標準訓練よりもはるかに大きいように見える。
この現象は頑丈なオーバーフィッティング(英語版)として知られ、研究の注目を集め、主に謎として残っている。
論文 参考訳(メタデータ) (2023-11-28T05:11:53Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - The Role of Mutual Information in Variational Classifiers [47.10478919049443]
クロスエントロピー損失を訓練した符号化に依存する分類器の一般化誤差について検討する。
我々は、一般化誤差が相互情報によって境界付けられた状態が存在することを示す一般化誤差に境界を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:27:57Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。