論文の概要: Filtering with Self-Attention and Storing with MLP: One-Layer Transformers Can Provably Acquire and Extract Knowledge
- arxiv url: http://arxiv.org/abs/2508.00901v2
- Date: Tue, 05 Aug 2025 03:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.104667
- Title: Filtering with Self-Attention and Storing with MLP: One-Layer Transformers Can Provably Acquire and Extract Knowledge
- Title(参考訳): 自己注意型フィルタとMLPを用いたストリング:一層変圧器の知識獲得と抽出を可能とした一層変圧器
- Authors: Ruichen Xu, Kexin Chen,
- Abstract要約: 現代の大きな言語モデルは知識集約的なタスクに優れています。
トランスフォーマーは、事前学習中に知識を習得(保存)し、ポストファインニング中にそれを抽出(回収)する方法は、いまだに不透明である。
- 参考スコア(独自算出の注目度): 2.486161976966064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models excel in knowledge-intensive tasks, yet how transformers acquire (store) knowledge during pre-training and extract (retrieve) it during post-fine-tuning inference remains theoretically opaque. While prior theoretical work has begun to investigate these questions through the analysis of training dynamics, such studies are limited to single-layer, attention-only architectures. However, most existing studies suggest that MLPs are the most contributing components for storing knowledge in transformer-based language models. Meanwhile, our empirical investigations reveal that such simplified models, when trained using standard next-token prediction objectives, may be incapable of acquiring or extracting factual knowledge. To overcome this limitation, we introduce a tractable one-layer transformer framework that crucially incorporates both self-attention and MLP modules. By tracking its gradient dynamics, we establish convergence and generalization guarantees that illuminate the ability of knowledge acquisition and extraction. We prove that 1) Transformers can achieve near-optimal training loss during pre-training, signifying effective knowledge acquisition; 2) With a large fine-tuning dataset and specific data multiplicity conditions met, transformers can achieve low generalization error when tested on factual knowledge learned during pre-training but not reinforced during the fine-tuning, indicating successful knowledge extraction; 3) When the conditions are not satisfied, transformers exhibit high generalization loss, resulting in hallucinations. Our analysis includes both full fine-tuning and low-rank fine-tuning. Furthermore, our analysis offers theoretical insights into several pertinent empirical phenomena, such as the role of learning rate schedules. Experiments on synthetic and real-world PopQA datasets with GPT-2 and Llama-3.2-1B validate our results.
- Abstract(参考訳): 現代の大きな言語モデルは、知識集約的なタスクにおいて優れているが、トランスフォーマーが事前学習中に知識を習得(保存)し、微調整後の推論中にそれを抽出(検索)する方法は理論上不透明である。
これまでの理論的研究は、トレーニング力学の分析を通じてこれらの疑問を調査し始めているが、これらの研究は単層、注意のみのアーキテクチャに限られている。
しかし、既存の研究のほとんどは、MPPがトランスフォーマーベースの言語モデルに知識を格納するための最も貢献するコンポーネントであることを示している。
一方、実証研究により、このような単純化されたモデルが、標準的な次世代予測目標を用いて訓練された場合、事実知識の獲得や抽出が不可能であることが示された。
この制限を克服するために,自己注意モジュールとMLPモジュールの両方を重要な要素として組み込んだ,トラクタブルな1層トランスフォーマフレームワークを導入する。
その勾配のダイナミクスを追跡することによって、知識の獲得と抽出の能力を照らし出す収束と一般化の保証を確立する。
私たちはそれを証明します
1) トランスフォーマーは,事前訓練中に,効果的な知識獲得を示す準最適トレーニング損失を達成できる。
2)大規模な微調整データセットと具体的データ多重度条件を満たせば,事前学習中に学習した事実知識を検証しても,微調整中に強化されず,知識抽出に成功していることを示す上で,低い一般化誤差を達成できる。
3) 条件が満たされない場合, 変圧器は高い一般化損失を示し, 幻覚を引き起こす。
私たちの分析には、フル微調整とローランク微調整の両方が含まれています。
さらに,本分析は,学習率スケジュールの役割など,いくつかの関連する経験的現象に関する理論的知見を提供する。
GPT-2とLlama-3.2-1Bによる合成および実世界のPopQAデータセットの実験は、我々の結果を検証する。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。