論文の概要: Transformer learns the cross-task prior and regularization for in-context learning
- arxiv url: http://arxiv.org/abs/2505.12138v1
- Date: Sat, 17 May 2025 20:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.060394
- Title: Transformer learns the cross-task prior and regularization for in-context learning
- Title(参考訳): トランスフォーマーはテキスト内学習におけるクロスタスク前処理と正規化を学習する
- Authors: Fei Lu, Yue Yu,
- Abstract要約: 文脈例から基底重みベクトルへの逆写像を学習するために線形変換器を導入する。
我々は, 変圧器推定器の誤差が雑音レベル, タスク次元とコンテキスト長との比, 入力データの条件数と線形にスケールすることを数値的に検証する。
- 参考スコア(独自算出の注目度): 11.570071580371964
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have shown a remarkable ability for in-context learning (ICL), making predictions based on contextual examples. However, while theoretical analyses have explored this prediction capability, the nature of the inferred context and its utility for downstream predictions remain open questions. This paper aims to address these questions by examining ICL for inverse linear regression (ILR), where context inference can be characterized by unsupervised learning of underlying weight vectors. Focusing on the challenging scenario of rank-deficient inverse problems, where context length is smaller than the number of unknowns in the weight vectors and regularization is necessary, we introduce a linear transformer to learn the inverse mapping from contextual examples to the underlying weight vector. Our findings reveal that the transformer implicitly learns both a prior distribution and an effective regularization strategy, outperforming traditional ridge regression and regularization methods. A key insight is the necessity of low task dimensionality relative to the context length for successful learning. Furthermore, we numerically verify that the error of the transformer estimator scales linearly with the noise level, the ratio of task dimension to context length, and the condition number of the input data. These results not only demonstrate the potential of transformers for solving ill-posed inverse problems, but also provide a new perspective towards understanding the knowledge extraction mechanism within transformers.
- Abstract(参考訳): トランスフォーマーはコンテキスト内学習(ICL)の顕著な能力を示し、文脈的な例に基づいて予測を行う。
しかし, この予測能力は理論的に検討されているものの, 推定文脈の性質と下流予測の有用性は未解決のままである。
本稿では, 逆線形回帰 (ILR) のICLを検証し, 基礎となる重みベクトルの教師なし学習により, 文脈推論を特徴付けることを目的とする。
重みベクトルと正則化の未知数よりも文脈長が小さいようなランク不足逆問題の難解なシナリオに焦点をあてて、文脈例から下層の重みベクトルへの逆写像を学習するための線形変換器を導入する。
以上の結果から,トランスフォーマーは従来のリッジ回帰法や正規化法よりも優れ,事前分布と効果的な正規化戦略の両方を暗黙的に学習することが明らかとなった。
重要な洞察は、学習を成功させるために、文脈長に対して低いタスク次元の必要性である。
さらに, 変圧器の誤差が雑音レベル, タスク次元とコンテキスト長との比, 入力データの条件数と線形に大きくなることを数値的に検証する。
これらの結果は, 不正な逆問題を解決するための変圧器の可能性を示すだけでなく, 変圧器内の知識抽出機構を理解するための新たな視点を提供する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。