論文の概要: Task Vectors, Learned Not Extracted: Performance Gains and Mechanistic Insight
- arxiv url: http://arxiv.org/abs/2509.24169v1
- Date: Mon, 29 Sep 2025 01:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.67634
- Title: Task Vectors, Learned Not Extracted: Performance Gains and Mechanistic Insight
- Title(参考訳): 抽出されていないタスクベクトル:パフォーマンス向上とメカニスティックインサイト
- Authors: Haolin Yang, Hakaze Cho, Kaize Ding, Naoya Inoue,
- Abstract要約: 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)として知られる、インコンテキストのデモンストレーションから新しいタスクを実行することができる。
近年の研究では、これらの実演は、LLMが予測に利用するコンパクトなタスク表現であるタスクベクトル(TV)に圧縮されることが示唆されている。
本稿では,抽出したテレビを精度良く越え,優れたフレキシビリティを実現するLearted Task Vectors(LTV)を直接訓練することを提案する。
- 参考スコア(独自算出の注目度): 29.219501282135756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can perform new tasks from in-context demonstrations, a phenomenon known as in-context learning (ICL). Recent work suggests that these demonstrations are compressed into task vectors (TVs), compact task representations that LLMs exploit for predictions. However, prior studies typically extract TVs from model outputs or hidden states using cumbersome and opaque methods, and they rarely elucidate the mechanisms by which TVs influence computation. In this work, we address both limitations. First, we propose directly training Learned Task Vectors (LTVs), which surpass extracted TVs in accuracy and exhibit superior flexibility-acting effectively at arbitrary layers, positions, and even with ICL prompts. Second, through systematic analysis, we investigate the mechanistic role of TVs, showing that at the low level they steer predictions primarily through attention-head OV circuits, with a small subset of "key heads" most decisive. At a higher level, we find that despite Transformer nonlinearities, TV propagation is largely linear: early TVs are rotated toward task-relevant subspaces to improve logits of relevant labels, while later TVs are predominantly scaled in magnitude. Taken together, LTVs not only provide a practical approach for obtaining effective TVs but also offer a principled lens into the mechanistic foundations of ICL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)として知られる、インコンテキストのデモンストレーションから新しいタスクを実行することができる。
近年の研究では、これらの実演は、LLMが予測に利用するコンパクトなタスク表現であるタスクベクトル(TV)に圧縮されることが示唆されている。
しかし、従来の研究では、通常、不透明な手法や不透明な手法を用いて、モデル出力や隠された状態からテレビを抽出し、テレビが計算に影響を与えるメカニズムを解明することは滅多にない。
この作業では、両方の制限に対処します。
まず,学習課題ベクトル(LTV)を直接訓練し,抽出したテレビを精度で超過し,任意の層や位置,さらにはICLプロンプトでも優れた柔軟性を示す。
第2に、系統分析により、テレビの機械的役割を解明し、低レベルにおいては、主に注目型OV回路を介して、キーヘッド(key head)の小さなサブセットが最も決定的な予測を行うことを示した。
高いレベルでは、トランスフォーマーの非線形性にもかかわらず、テレビの伝搬は概ね線形であり、初期のテレビは関連するラベルのロジットを改善するためにタスク関連サブスペースに向けて回転する。
まとめると、LTVは効果的なテレビを得るための実践的なアプローチを提供するだけでなく、ICLの力学基盤に原則化されたレンズを提供する。
関連論文リスト
- Leveraging In-Context Learning for Language Model Agents [51.2996117207114]
インコンテキスト学習(ICL)と動的に選択されたデモは、大規模言語モデル(LLM)の柔軟性と、トレーニングデータを活用してパフォーマンスを向上させる能力を組み合わせたものだ。
実演における類似タスクの軌道選択は, LLMエージェントの性能, 信頼性, 堅牢性, 効率を著しく向上させることを示す。
より大規模なモデル(アノテーションフェーズ)から得られた実演により、より小さなモデルも改善され、ICLエージェントはよりコストのかかる訓練されたエージェントと競合する可能性がある。
論文 参考訳(メタデータ) (2025-06-16T05:37:49Z) - Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations [19.539276425108987]
この研究は線形結合導出法を提案し、タスクベクトルは元のベクトルの線形結合によって形成された単一のコンテキスト内実証として機能することを示した。
本研究では,三重項型プロンプトを訓練した線形変圧器において,タスクベクトルが自然に現れることを示す。
本研究では,高階マッピングにおけるタスクベクトルの故障を予測し,実用的なLCM上で確認する。
論文 参考訳(メタデータ) (2025-06-10T17:59:31Z) - Adaptive Task Vectors for Large Language Models [14.108866468832623]
Adaptive Task Vectors (ATV) は、各入力クエリに条件付きタスクベクトルを動的に生成する、シンプルで効果的なフレームワークである。
ATVは、目に見えないタスクであっても、強力なパフォーマンスと一般化能力を示す。
論文 参考訳(メタデータ) (2025-06-03T22:12:28Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - BADTV: Unveiling Backdoor Threats in Third-Party Task Vectors [17.723197686401086]
大規模な事前学習モデルにおけるタスク算術は、広範囲のトレーニングを伴わずに、様々な下流タスクへのアジャイル適応を可能にする。
本稿では,テレビのバックドア攻撃に対する脆弱性について検討し,悪質なアクターがそれらを悪用してモデルの整合性を損なう方法を明らかにする。
BadTVはタスク学習, 忘れ, アナロジー操作において, 同時に有効であるように設計されたバックドア攻撃である。
論文 参考訳(メタデータ) (2025-01-04T20:18:33Z) - In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
RoboPromptは、シミュレーションおよび実世界の設定において、ゼロショットとICLベースラインよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - Distributed Rule Vectors is A Key Mechanism in Large Language Models' In-Context Learning [3.1775609005777024]
大規模言語モデル(LLM)は目覚ましい能力を示しており、最も重要なものはインコンテキスト学習(ICL)である。
以前の研究は、ICL中に特定の位置でネットワークが「タスクベクトル」を生成すると仮定していた。
このような「タスクベクトル」は、ルールを複数の実演を通して定義しなければならないタスクには存在しないことが判明した。
論文 参考訳(メタデータ) (2024-06-23T04:29:13Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。