論文の概要: Query Circuits: Explaining How Language Models Answer User Prompts
- arxiv url: http://arxiv.org/abs/2509.24808v1
- Date: Mon, 29 Sep 2025 13:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.031942
- Title: Query Circuits: Explaining How Language Models Answer User Prompts
- Title(参考訳): クエリ回路: 言語モデルがユーザプロンプトにどう答えるかを説明する
- Authors: Tung-Yu Wu, Fazl Barez,
- Abstract要約: クエリ回路を導入し、特定の入力を出力にマッピングするモデル内の情報の流れをトレースする。
NDFは、発見回路が特定の入力に対するモデルの判断をいかにうまく回復するかを評価する指標である。
モデル内には非常にスパースなクエリ回路が存在し、単一のクエリでその性能を回復できることがわかった。
- 参考スコア(独自算出の注目度): 13.16677655895186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining why a language model produces a particular output requires local, input-level explanations. Existing methods uncover global capability circuits (e.g., indirect object identification), but not why the model answers a specific input query in a particular way. We introduce query circuits, which directly trace the information flow inside a model that maps a specific input to the output. Unlike surrogate-based approaches (e.g., sparse autoencoders), query circuits are identified within the model itself, resulting in more faithful and computationally accessible explanations. To make query circuits practical, we address two challenges. First, we introduce Normalized Deviation Faithfulness (NDF), a robust metric to evaluate how well a discovered circuit recovers the model's decision for a specific input, and is broadly applicable to circuit discovery beyond our setting. Second, we develop sampling-based methods to efficiently identify circuits that are sparse yet faithfully describe the model's behavior. Across benchmarks (IOI, arithmetic, MMLU, and ARC), we find that there exist extremely sparse query circuits within the model that can recover much of its performance on single queries. For example, a circuit covering only 1.3% of model connections can recover about 60% of performance on an MMLU questions. Overall, query circuits provide a step towards faithful, scalable explanations of how language models process individual inputs.
- Abstract(参考訳): 言語モデルが特定の出力を生成する理由を説明するには、ローカルなインプットレベルの説明が必要である。
既存の手法は、グローバルな機能回路(例えば、間接的なオブジェクト識別)を明らかにするが、なぜモデルが特定の入力クエリに特定の方法で答えるのかは明らかにしない。
クエリ回路を導入し、特定の入力を出力にマッピングするモデル内の情報フローを直接トレースする。
サロゲートベースのアプローチ(例えばスパースオートエンコーダ)とは異なり、クエリ回路はモデル自身で識別され、より忠実で計算にアクセスできる説明となる。
クエリ回路を実用化するためには,2つの課題に対処する。
まず、発見回路が特定の入力に対するモデルの判断をいかにうまく回復するかを評価するための頑健な指標である正規化偏差忠実度(NDF)を導入し、我々の設定を超える回路発見に広く適用できることを示す。
第2に,モデルの動作を忠実に記述しつつも疎い回路を効率的に同定するサンプリングベース手法を開発した。
ベンチマーク (IOI, 算術, MMLU, ARC) により, モデル内には非常にスパースなクエリ回路が存在し, 単一クエリの性能を回復できることがわかった。
例えば、モデル接続の1.3%しかカバーしていない回路は、MMLUの質問で約60%のパフォーマンスを回復することができる。
全体として、クエリ回路は、言語モデルが個々の入力をどのように処理するかを忠実でスケーラブルに説明するためのステップを提供する。
関連論文リスト
- On Mechanistic Circuits for Extractive Question-Answering [47.167393805165325]
大規模言語モデルは、文書の処理や質問応答を容易にするためにますます使われている。
本稿では,この実世界の言語モデリングタスクのためのメカニスティック回路を抽出する。
我々は,データ属性やコンテキスト情報といった下流アプリケーションに対する回路の潜在的な利点を示す。
論文 参考訳(メタデータ) (2025-02-12T01:54:21Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability [3.138731415322007]
GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
論文 参考訳(メタデータ) (2024-11-25T05:32:34Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Adversarial Circuit Evaluation [1.1893676124374688]
文献中の3つの回路(IOI, Great-than, docstring)を対角的に評価した。
我々は,全モデルの出力と回路の出力とのKLのばらつきを測定し,再サンプリングアブレーションによって計算し,最悪の性能の入力を解析する。
論文 参考訳(メタデータ) (2024-07-21T13:43:44Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。