論文の概要: Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning
- arxiv url: http://arxiv.org/abs/2605.04061v1
- Date: Fri, 10 Apr 2026 14:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.55097
- Title: Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning
- Title(参考訳): 単一Positionインターベンション障害:分散出力テンプレートがコンテキスト内学習を促進する
- Authors: Bryan Cheng, Jasper Zhang,
- Abstract要約: 大規模な言語モデルがどのようにタスクのアイデンティティを数発のデモからエンコードしているかを理解することは、機械的解釈可能性において中心的なオープンな問題である。
以前の作業では、リニアプローブを使用してタスク表現をローカライズし、特定のレイヤで高い分類精度を報告していた。
正確さを求めることは因果的重要性を予測するのに完全に失敗する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how large language models encode task identity from few-shot demonstrations is a central open problem in mechanistic interpretability. Prior work uses linear probing to localize task representations, reporting high classification accuracy at specific layers. We reveal a striking dissociation: probing accuracy completely fails to predict causal importance. Single-position activation intervention achieves 0% task transfer across all 28 layers of Llama-3.2-3B-despite 100% probing accuracy at those same positions. This null result is itself a key finding, demonstrating that task encoding is fundamentally distributed. Multi-position intervention-replacing activations at all demonstration output tokens simultaneously-achieves up to 96% transfer (N=50, 95% CI: [87%, 99%]) at layer 8, pinpointing for the first time the causal locus of ICL task identity. We establish the generality of these findings across four models spanning three architecture families (LLaMA, Qwen, Gemma), discovering a universal intervention window at ~30% network depth. Causal tracing uncovers an asymmetric architecture: the query position is strictly necessary (53-100% disruption) while no individual demonstration position is necessary (0% disruption)-resolving a key ambiguity in prior accounts. Crucially, transfer depends on internal representation compatibility, not surface similarity (r=-0.05 vs r=0.31), ruling out trivial explanations. These results establish the distributed template hypothesis: ICL task identity is encoded as output format templates distributed across demonstration tokens, fundamentally reshaping our understanding of how in-context learning operates.
- Abstract(参考訳): 大規模な言語モデルがどのようにタスクのアイデンティティを数発のデモからエンコードしているかを理解することは、機械的解釈可能性において中心的なオープンな問題である。
以前の作業では、リニアプローブを使用してタスク表現をローカライズし、特定のレイヤで高い分類精度を報告していた。
正確さを求めることは因果的重要性を予測するのに完全に失敗する。
単一位置の活性化介入はLlama-3.2-3Bの28層すべてに0%のタスク転送を達成する。
このnull結果はそれ自体も重要な発見であり、タスクのエンコーディングが基本的に分散していることを示しています。
ICLタスクアイデンティティの因果軌跡が最初に指摘されたのは、すべてのデモ出力トークンにおけるマルチポジション介入-リプレースアクティベーションの活性化であり、同時に96%の転送(N=50,95% CI: [87%, 99%])をレイヤ8で達成する。
3つのアーキテクチャファミリ(LLaMA, Qwen, Gemma)にまたがる4つのモデルにまたがるこれらの発見の一般性を確立する。
因果トレースは非対称なアーキテクチャを明らかにする:クエリ位置は厳密に(53-100%の破壊)必要であるが、個々のデモ位置は必要ない(0%の破壊)。
重要なことに、転送は内部表現の互換性に依存し、表面的類似性(r=-0.05 対 r=0.31)ではなく、自明な説明を除外する。
ICLタスクアイデンティティは、デモトークンに分散した出力フォーマットテンプレートとしてエンコードされ、コンテキスト内学習の動作に関する理解を根本的に再構築する。
関連論文リスト
- QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search [19.376785819604923]
QP-OneModelはSNS検索エンジンにおけるユーザの意図とコンテンツの供給を橋渡しする。
新規な高忠実な意味信号として意図的記述を生成する。
また、32Bモデルを7.60%精度で上回り、より優れた一般化を示す。
論文 参考訳(メタデータ) (2026-02-10T15:38:17Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。
提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。
我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文 参考訳(メタデータ) (2021-06-15T02:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。