論文の概要: Transformers are almost optimal metalearners for linear classification
- arxiv url: http://arxiv.org/abs/2510.19797v1
- Date: Wed, 22 Oct 2025 17:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.235691
- Title: Transformers are almost optimal metalearners for linear classification
- Title(参考訳): 変圧器は線形分類のためのほぼ最適メタラーである
- Authors: Roey Magen, Gal Vardi,
- Abstract要約: 線形分類設定において,勾配降下による簡易な変圧器アーキテクチャが準最適メタラーとして機能することを示す。
我々は、この変換器が、テスト時に信号強度を表す$O(k / R4)$ in-contextの例だけで、新しいタスクに一般化できることを示します。
- 参考スコア(独自算出の注目度): 23.802698927619545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated impressive in-context learning (ICL) capabilities, raising the question of whether they can serve as metalearners that adapt to new tasks using only a small number of in-context examples, without any further training. While recent theoretical work has studied transformers' ability to perform ICL, most of these analyses do not address the formal metalearning setting, where the objective is to solve a collection of related tasks more efficiently than would be possible by solving each task individually. In this paper, we provide the first theoretical analysis showing that a simplified transformer architecture trained via gradient descent can act as a near-optimal metalearner in a linear classification setting. We consider a natural family of tasks where each task corresponds to a class-conditional Gaussian mixture model, with the mean vectors lying in a shared $k$-dimensional subspace of $R^d$. After training on a sufficient number of such tasks, we show that the transformer can generalize to a new task using only $O(k / R^4)$ in-context examples, where $R$ denotes the signal strength at test time. This performance (almost) matches that of an optimal learner that knows exactly the shared subspace and significantly outperforms any learner that only has access to the in-context data, which requires $\Omega(d / R^4)$ examples to generalize. Importantly, our bounds on the number of training tasks and examples per task needed to achieve this result are independent of the ambient dimension $d$.
- Abstract(参考訳): トランスフォーマーは印象的なインコンテキスト学習(ICL)機能を示しており、追加のトレーニングなしに少数のインコンテキストサンプルを使用して新しいタスクに適応するメタナーとして機能できるかという疑問を提起している。
近年の理論的研究では、トランスフォーマーがICLを実行する能力について研究されているが、これらの分析のほとんどは、個々のタスクを個別に解くことで、より効率的に関連するタスクの集合を解くことを目的としており、形式的なメタラーニング設定には対処していない。
本稿では,線形分類設定において,勾配降下による簡易な変圧器アーキテクチャが準最適メタナーとして機能することを示す最初の理論的解析を行った。
各タスクがクラス条件のガウス混合モデルに対応し、平均ベクトルが$R^d$の共有$k$次元部分空間にあるようなタスクの自然な族を考える。
十分な数のタスクをトレーニングした後、$O(k / R^4)$ in-contextの例だけで変換器が新しいタスクに一般化できることを示し、$R$はテスト時に信号強度を表す。
このパフォーマンス(ほぼ)は、共有サブスペースを正確に把握し、コンテキスト内データのみにアクセス可能な学習者よりもはるかに優れており、一般化するためには$\Omega(d / R^4)$例が必要である。
重要なことは、この結果を達成するのに必要なタスク毎のトレーニングタスク数と例の制限は、周囲の次元$d$とは無関係です。
関連論文リスト
- Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:22:00Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。
定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。
MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文 参考訳(メタデータ) (2021-05-18T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。