論文の概要: Task Vector Geometry Underlies Dual Modes of Task Inference in Transformers
- arxiv url: http://arxiv.org/abs/2605.03780v1
- Date: Tue, 05 May 2026 14:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.961791
- Title: Task Vector Geometry Underlies Dual Modes of Task Inference in Transformers
- Title(参考訳): タスクベクトル幾何は変圧器のタスク推論の2モードを下方へ
- Authors: Hao Yan, Haolin Yang, Yiqiao Zhong,
- Abstract要約: トランスフォーマーは2つの推論モードを通してコンテキストから潜在タスクを推論するのに効果的である。
近年の解釈可能性研究は中間層表現からタスク固有の方向を同定している。
2つの推論モードが1つのモデル内で共存可能であることを示す。
- 参考スコア(独自算出の注目度): 6.89278796238822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are effective at inferring the latent task from context via two inference modes: recognizing a task seen during training, and adapting to a novel one. Recent interpretability studies have identified from middle-layer representations task-specific directions, or task vectors, that steer model behavior. However, a lack of rigorous foundations hinders connecting internal representations to external model behavior: existing work fails to explain how task-vector geometry is shaped by the training distribution, and what geometry enables out-of-distribution (OOD) generalization. In this paper, we study these questions in a controlled synthetic setting by training small transformers from scratch on latent-task sequence distributions, which allows a principled mathematical characterization. We show that two inference modes can coexist within a single model. In-distribution behavior is governed by Bayesian task retrieval, implemented internally through convex combinations of learned task vectors. OOD behavior, by contrast, arises through extrapolative task learning, whose representations occupy a subspace nearly orthogonal to the task-vector subspace. Taken together, our results suggest that task-vector geometry, training distributions, and generalization behaviors are closely related.
- Abstract(参考訳): トランスフォーマーは、トレーニング中に見られるタスクを認識し、新しいタスクに適応する2つの推論モードを通じて、潜在タスクをコンテキストから推論するのに効果的である。
近年の解釈可能性研究は、ステアモデル行動を示す中間層表現のタスク固有方向(タスクベクトル)から特定されている。
しかし、厳密な基礎の欠如は、内部表現と外部モデル行動の接続を妨げる: 既存の作業は、トレーニング分布によってタスクベクトル幾何学がどのように形成されているか、また、幾何がアウト・オブ・ディストリビューション(OOD)の一般化を可能にするのかを説明するのに失敗する。
本稿では,これらの質問を,スクラッチからラテント・タスク列の分布を学習することで,制御された合成条件下で研究し,数学的特徴付けを可能にする。
2つの推論モードが1つのモデル内で共存可能であることを示す。
分布内挙動は、学習されたタスクベクトルの凸結合を通して内部的に実装されたベイズタスク検索によって制御される。
対照的に、OODの振る舞いは外挿的タスク学習によって生じ、その表現はタスクベクトル部分空間とほぼ直交する部分空間を占有する。
その結果,タスクベクトル幾何学,トレーニング分布,一般化挙動が密接に関連していることが示唆された。
関連論文リスト
- When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - Provable Benefits of Task-Specific Prompts for In-context Learning [44.768199865867494]
本研究では,グローバルなタスク分布を条件付きタスク分布の結合に分割できる新しい設定について考察する。
次に,タスク固有のプロンプトと予測ヘッドを用いて,一層アテンションモデルを用いて条件付きタスク分布に関連する事前情報を学習する。
論文 参考訳(メタデータ) (2025-03-03T22:37:03Z) - Task Vectors in In-Context Learning: Emergence, Formation, and Benefit [17.72043522825441]
合成データセットをスクラッチから学習したモデルを用いて, 制御された環境下でのタスクベクトルの生成について検討した。
その結果,特定の条件下ではタスクベクトルが自然に現れることが確認できたが,タスクは比較的弱く,あるいは非局所的にモデル内にコード化されている可能性がある。
モデル内の所定位置に符号化された強いタスクベクトルを促進するために,損失を促すタスクベクトルに基づく補助的なトレーニング機構を提案する。
論文 参考訳(メタデータ) (2025-01-16T01:54:23Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。