論文の概要: How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits
- arxiv url: http://arxiv.org/abs/2605.08348v1
- Date: Fri, 08 May 2026 18:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.582134
- Title: How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits
- Title(参考訳): 回路がどのくらい教えてくれるか : 言語モデル回路の一貫性と特異性の測定
- Authors: Michael Li, Nishant Subramani,
- Abstract要約: 本研究は, 回路再利用率, タスク内のサンプル単位の回路間で共有されるコンポーネントの割合を測定し, この整合性の2つの少ない特性について検討する。
タスク内再利用は高く,タスクパフォーマンスには共有コンポーネントが不可欠であることが判明した。
しかし、あるタスクの回路を壊すことは、そのタスク自身の回路と同じくらいの性能を損なう。
- 参考スコア(独自算出の注目度): 4.991808275998526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The circuits framework in mechanistic interpretability aims to identify causally important sparse subgraphs of model components, typically evaluated by measuring necessity and sufficiency. We measure circuit reuse, the proportion of components shared across per-example circuits within a task, and investigate two less-studied properties of this: consistency, the recurrence of components within a task, and specificity, their uniqueness to a task. Using edge attribution patching across six tasks and seven models, we find that within-task reuse is high and that shared components are necessary for task performance, with ablations causing up to $\sim$100% relative accuracy drops. However, circuits turn out not to be task-specific: ablating one task's circuit damages another task's performance about as much as that task's own circuit does. We discover that this is due to substantial overlap between circuits across tasks, which are causally important for performance. Some circuits do contain a smaller set of task-specific components, but these account for only a modest portion of circuit performance. Overall, our findings suggest that while circuit discovery at the level of attention heads and MLP layers identifies important components, their lack of task-specificity raises questions about the degree to which circuits can support targeted understanding and intervention on model behavior.
- Abstract(参考訳): 機械的解釈可能性における回路の枠組みは、モデル成分の因果的に重要なスパース部分グラフを同定することを目的としており、通常は必要量と十分性を測定することによって評価される。
本研究は, 回路再利用, タスク内の各回路間で共有されるコンポーネントの割合を計測し, 整合性, タスク内のコンポーネントの繰り返し, 特異性, タスクに対する特異性という, 未研究の2つの特性について検討する。
6つのタスクと7つのモデルにまたがるエッジ属性パッチを用いることで、タスクのパフォーマンスにはタスク内再利用が高く、共有コンポーネントが必須であることが分かる。
しかし、あるタスクの回路を壊すことは、そのタスク自身の回路と同じくらいの性能を損なう。
これは,タスク間の回路間の重なり合いが原因であることが判明した。
いくつかの回路はタスク固有のコンポーネントのセットが小さいが、回路性能のわずかな部分しか考慮していない。
以上の結果から,注意点レベルの回路発見とMDP層は重要な要素を識別するが,タスク特異性の欠如は,回路が対象の理解とモデル行動介入を支援する程度に疑問を呈する。
関連論文リスト
- IBCircuit: Towards Holistic Circuit Discovery with Information Bottleneck [39.572087058128645]
IBCircuitと呼ばれるInformation Bottleneckの原理に基づくエンドツーエンドの手法を提案し,情報回路の論理的同定を行う。
IBCircuitは、全体的な回路探索のための最適化フレームワークであり、面倒な動作設計をせずに任意のタスクに適用することができる。
論文 参考訳(メタデータ) (2026-02-26T03:33:35Z) - Purifying Task Vectors in Knowledge-Aware Subspace for Model Merging [83.5273168208788]
モデルマージは、個別に調整されたモデルのタスク固有の能力を、余分なトレーニングなしで単一のモデルに統合することを目的としている。
統合モデルは、タスクベクトルのタスク非関連冗長性に起因する競合により、しばしば顕著なパフォーマンス劣化に悩まされる。
本稿では,これらの課題を克服するために,知識対応サブ空間におけるTAsk Vectors (PAVE) の純粋化を提案する。
論文 参考訳(メタデータ) (2025-10-16T14:02:57Z) - Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T11:36:45Z) - A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。
主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文 参考訳(メタデータ) (2024-02-09T07:12:56Z) - Circuit Component Reuse Across Tasks in Transformer Language Models [32.2976613483151]
我々は、洞察がタスクをまたいで実際に一般化できる証拠を示す。
両タスクの根底にあるプロセスは機能的に非常によく似ており、回路内注目ヘッドの約78%が重なり合っていることを示す。
この結果から,大規模言語モデルの動作を,比較的少数の解釈可能なタスク一般のアルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:12:28Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。