論文の概要: Transformers Trained via Gradient Descent Can Provably Learn a Class of Teacher Models
- arxiv url: http://arxiv.org/abs/2603.22801v1
- Date: Tue, 24 Mar 2026 04:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.314846
- Title: Transformers Trained via Gradient Descent Can Provably Learn a Class of Teacher Models
- Title(参考訳): グラディエントDescentで学習したトランスフォーマーは、おそらく教師モデルのクラスを学習できる
- Authors: Chenyang Zhang, Qingyue Zhao, Quanquan Gu, Yuan Cao,
- Abstract要約: 教師モデルのクラスから学習するために,トランスフォーマーを学生として活用することについて理論的に検討する。
教師モデルのパラメータブロックの復元に成功し,「配置のみ」を簡略化した一層変圧器の有効性を実証した。
- 参考スコア(独自算出の注目度): 52.13777594501992
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have achieved great success across a wide range of applications, yet the theoretical foundations underlying their success remain largely unexplored. To demystify the strong capacities of transformers applied to versatile scenarios and tasks, we theoretically investigate utilizing transformers as students to learn from a class of teacher models. Specifically, the teacher models covered in our analysis include convolution layers with average pooling, graph convolution layers, and various classic statistical learning models, including a variant of sparse token selection models [Sanford et al., 2023, Wang et al., 2024] and group-sparse linear predictors [Zhang et al., 2025]. When learning from this class of teacher models, we prove that one-layer transformers with simplified "position-only'' attention can successfully recover all parameter blocks of the teacher models, thus achieving the optimal population loss. Building upon the efficient mimicry of trained transformers towards teacher models, we further demonstrate that they can generalize well to a broad class of out-of-distribution data under mild assumptions. The key in our analysis is to identify a fundamental bilinear structure shared by various learning tasks, which enables us to establish unified learning guarantees for these tasks when treating them as teachers for transformers.
- Abstract(参考訳): トランスフォーマーは広範囲のアプリケーションで大きな成功を収めてきたが、その成功の基礎となる理論的基盤はほとんど解明されていない。
多様なシナリオやタスクに適用されたトランスフォーマーの強い能力を明らかにするために,教師モデルのクラスから学ぶために,トランスフォーマーを学生として活用することについて理論的に検討する。
具体的には、平均プーリングを伴う畳み込み層、グラフ畳み込み層、およびスパーストークン選択モデル(Sanford et al , 2023, Wang et al , 2024)とグループスパース線形予測モデル(Zhang et al , 2025)の変種を含む様々な古典的統計学習モデルを含む。
このクラスの教師モデルから学習すると、「配置のみ」の注意を簡略化した一層トランスフォーマーが教師モデルのパラメータブロックを全て回復し、最適な人口損失を達成できることを示す。
教師モデルに対する学習用トランスフォーマーの効率的な模倣に基づいて、軽度な仮定の下で、幅広い分布外データにうまく一般化できることを実証する。
分析の鍵となるのは、様々な学習課題で共有される基本的な双線形構造を同定し、トランスフォーマーの教師として扱う際に、これらのタスクに対する統一的な学習保証を確立することである。
関連論文リスト
- Incremental Learning of Sparse Attention Patterns in Transformers [29.54151079577767]
本稿では,複数の過去の位置からの情報を変換器がどのように統合するかを検討するために,高次マルコフ連鎖タスクを提案する。
我々は、頭が最も統計的に支配的なパターンに収束する競争から、異なるパターンを専門とする協調へと、学習力学のシフトを特定する。
論文 参考訳(メタデータ) (2026-02-22T12:16:06Z) - Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures [10.970776446566909]
本稿では,教師なし学習問題の解法における変圧器の機能について検討する。
複数のGMMタスクを同時に学習するTGMMというトランスフォーマーベースの学習フレームワークを提案する。
我々は、変換器がスペクトル法のEMアルゴリズムとコア成分の両方を近似できることを証明した。
論文 参考訳(メタデータ) (2025-05-17T09:02:18Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。