論文の概要: Non-asymptotic Convergence of Training Transformers for Next-token Prediction
- arxiv url: http://arxiv.org/abs/2409.17335v2
- Date: Sun, 29 Sep 2024 21:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:57.064721
- Title: Non-asymptotic Convergence of Training Transformers for Next-token Prediction
- Title(参考訳): 次世代予測のためのトレーニング変圧器の非漸近収束
- Authors: Ruiquan Huang, Yingbin Liang, Jing Yang,
- Abstract要約: トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
- 参考スコア(独自算出の注目度): 48.9399496805422
- License:
- Abstract: Transformers have achieved extraordinary success in modern machine learning due to their excellent ability to handle sequential data, especially in next-token prediction (NTP) tasks. However, the theoretical understanding of their performance in NTP is limited, with existing studies focusing mainly on asymptotic performance. This paper provides a fine-grained non-asymptotic analysis of the training dynamics of a one-layer transformer consisting of a self-attention module followed by a feed-forward layer. We first characterize the essential structural properties of training datasets for NTP using a mathematical framework based on partial orders. Then, we design a two-stage training algorithm, where the pre-processing stage for training the feed-forward layer and the main stage for training the attention layer exhibit fast convergence performance. Specifically, both layers converge sub-linearly to the direction of their corresponding max-margin solutions. We also show that the cross-entropy loss enjoys a linear convergence rate. Furthermore, we show that the trained transformer presents non-trivial prediction ability with dataset shift, which sheds light on the remarkable generalization performance of transformers. Our analysis technique involves the development of novel properties on the attention gradient and further in-depth analysis of how these properties contribute to the convergence of the training process. Our experiments further validate our theoretical findings.
- Abstract(参考訳): トランスフォーマーは、特にNTP(Next-token Prediction)タスクにおいて、シーケンシャルなデータを処理する優れた能力のために、現代の機械学習において驚くべき成功を収めている。
しかしながら、NTPにおけるそれらの性能に関する理論的理解は限られており、既存の研究は主に漸近性パフォーマンスに焦点を当てている。
本稿では, 自己保持モジュールとフィードフォワード層からなる一層変圧器のトレーニングダイナミクスを, 微細な非漸近解析により解析する。
まず,部分順序に基づく数学的枠組みを用いて,NTPのトレーニングデータセットの基本的な構造特性を特徴付ける。
そこで,2段階学習アルゴリズムを設計し,フィードフォワード層をトレーニングする前処理ステージと,注目層をトレーニングする主処理ステージが高速収束性能を示す。
具体的には、両方の層は対応する最大辺解の方向と直交収束する。
また,クロスエントロピー損失は線形収束速度がよいことを示す。
さらに、トレーニングされた変換器は、データセットシフトによる非自明な予測能力を示し、変換器の顕著な一般化性能に光を当てる。
本手法は,注意勾配の新規な特性の発達と,これらの特性が学習過程の収束にどのように寄与するかを詳細に分析することを含む。
我々の実験は理論的な結果をさらに検証する。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis [10.79615566320291]
下流性能の最適化を目標として、トランスファーラーニングについて検討する。
任意の事前学習された特徴を入力として取る単純な線形モデルを導入する。
下流タスクのアンサンブル上で平均される下流リスクを最小化することにより、最適事前学習表現を同定する。
論文 参考訳(メタデータ) (2024-04-18T19:33:55Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Learning Stochastic Graph Neural Networks with Constrained Variance [18.32587282139282]
グラフニューラルネットワーク(Graph Neural Network, SGNN)は、ランダムグラフ上のデータから表現を学習する情報処理アーキテクチャである。
本稿では,SGNNに対する分散制約付き最適化問題を提案し,予測性能と偏差のバランスをとる。
降下したSGNNパラメータと昇降した双対変数を更新することで問題を解く。
論文 参考訳(メタデータ) (2022-01-29T15:55:58Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。