論文の概要: Finding Highly Interpretable Prompt-Specific Circuits in Language Models
- arxiv url: http://arxiv.org/abs/2602.13483v1
- Date: Fri, 13 Feb 2026 21:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.110874
- Title: Finding Highly Interpretable Prompt-Specific Circuits in Language Models
- Title(参考訳): 言語モデルにおける高解釈可能なプロンプト特異回路の探索
- Authors: Gabriel Franco, Lucas M. Tassis, Azalea Rohr, Mark Crovella,
- Abstract要約: 固定タスク内であっても、回路は即時特異的であることを示す。
本稿では,よりクリーンで低次元の因果信号を1つの前方パスから抽出するACC++を提案する。
我々はACC++信号を用いて人間の解釈可能な特徴を抽出する自動解釈可能性パイプラインを開発した。
- 参考スコア(独自算出の注目度): 4.768156759829138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the internal circuits that language models use to solve tasks remains a central challenge in mechanistic interpretability. Most prior work identifies circuits at the task level by averaging across many prompts, implicitly assuming a single stable mechanism per task. We show that this assumption can obscure a crucial source of structure: circuits are prompt-specific, even within a fixed task. Building on attention causal communication (ACC) (Franco & Crovella, 2025), we introduce ACC++, refinements that extract cleaner, lower-dimensional causal signals inside attention heads from a single forward pass. Like ACC, our approach does not require replacement models (e.g., SAEs) or activation patching; ACC++ further improves circuit precision by reducing attribution noise. Applying ACC++ to indirect object identification (IOI) in GPT-2, Pythia, and Gemma 2, we find there is no single circuit for IOI in any model: different prompt templates induce systematically different mechanisms. Despite this variation, prompts cluster into prompt families with similar circuits, and we propose a representative circuit for each family as a practical unit of analysis. Finally, we develop an automated interpretability pipeline that uses ACC++ signals to surface human-interpretable features and assemble mechanistic explanations for prompt families behavior. Together, our results recast circuits as a meaningful object of study by shifting the unit of analysis from tasks to prompts, enabling scalable circuit descriptions in the presence of prompt-specific mechanisms.
- Abstract(参考訳): 言語モデルがタスクを解くために使用する内部回路を理解することは、機械的解釈可能性において中心的な課題である。
ほとんどの以前の作業では、タスクごとに単一の安定メカニズムを仮定して、多くのプロンプトを平均化することで、タスクレベルでの回路を特定する。
我々は、この仮定が重要な構造源を曖昧にしうることを示す:回路は、固定されたタスク内であっても、即時特異的である。
注意因果コミュニケーション (ACC) (Franco & Crovella, 2025) に基づいて, 単一の前方パスからよりクリーンで低次元の因果信号を抽出するACC++を導入した。
ACC++は帰属雑音を減らすことにより回路精度をさらに向上させる。
GPT-2, Pythia, Gemma 2 で ACC++ を間接オブジェクト識別 (IOI) に適用すると,任意のモデルに IOI の回路は存在しない。
この変動にもかかわらず、クラスタは類似した回路を持つファミリにプロンプトし、解析の実用的な単位として各ファミリの代表回路を提案する。
最後に、ACC++信号を用いて人間の解釈可能な特徴を抽出し、家族行動を促すための機械的説明を組み立てる自動解釈可能性パイプラインを開発する。
そこで本研究では,解析単位をタスクからプロンプトにシフトさせることにより,回路を有意義な研究対象として再放送し,プロンプト固有の機構の存在下でスケーラブルな回路記述を可能にする。
関連論文リスト
- Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability [3.138731415322007]
GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
論文 参考訳(メタデータ) (2024-11-25T05:32:34Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models [9.56229382432426]
本研究の目的は、トランスフォーマーモデルをアルゴリズム機能を実装する人間可読表現にリバースエンジニアリングすることである。
GPT-2 SmallとLlama-2-7Bの両方のキーサブ回路を回路解釈可能性解析により同定する。
このサブ回路は、インターバル回路、スペイン語の数字と月数継続、自然言語の単語問題など、様々な数学的なプロンプトに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-11-07T16:58:51Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。