論文の概要: Many Circuits, One Mechanism: Input Variation and Evaluation Granularity in Circuit Discovery
- arxiv url: http://arxiv.org/abs/2606.06267v1
- Date: Thu, 04 Jun 2026 15:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.888215
- Title: Many Circuits, One Mechanism: Input Variation and Evaluation Granularity in Circuit Discovery
- Title(参考訳): 回路発見における入力変動と粒度評価
- Authors: Alireza Bayat Makou, Jingcheng Niu, Subhabrata Dutta, Iryna Gurevych,
- Abstract要約: 回路間の構造的差異は、異なる機構の十分な証拠ではないことを示す。
標準評価は、このパターンを曖昧にし、エッジレベル評価は、構造から機能への多対一マッピングを明らかにする。
- 参考スコア(独自算出の注目度): 49.50794188352666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Circuit discovery methods identify subgraphs that explain specific model behaviors, and structural differences between discovered circuits are commonly interpreted as evidence of distinct mechanisms. We test this assumption by varying input statistics while holding the task fixed, and show that the resulting structural differences exhibit apparent specialization but do not correspond to functional differences, a pattern we term phantom specialization. Using Literal Sequence Copying across four token-frequency bands plus a control condition in five Pythia models (70M-1.4B), we extract 75 circuits and find that structurally distinct circuits implement the same computation: band-specific edges transfer broadly across bands, a core shared across most bands recovers at least 99% of circuit performance, and causal interchange interventions confirm that internal representations are interchangeable across frequency bands. Repeated extractions within the same frequency band further suggest that discovery algorithms sample from an equivalence class of valid subgraphs rather than recovering a unique mechanism. Standard evaluation practice obscures this pattern: source-level evaluation inflates apparent faithfulness, while edge-level evaluation reveals the many-to-one mapping from structure to function. Our results show that structural differences between circuits are not sufficient evidence for distinct mechanisms, and that exposing this requires edge-level evaluation and cross-condition transfer tests.
- Abstract(参考訳): 回路発見法は、特定のモデル動作を説明する部分グラフを識別し、発見回路間の構造的差異は、一般に異なる機構の証拠として解釈される。
この仮定は,タスクを固定しながら入力統計を変化させて検証し,その結果の構造的差異が明らかな特殊化を示すが,機能的差異に対応しないことを示す。
5つのPythiaモデル(70M-1.4B)において,4つのトークン周波数帯にまたがるLiteral Sequence Copyingと制御条件を用いて,75個の回路を抽出し,構造的に異なる回路が同じ計算を実行することを発見した。
同じ周波数帯域内の繰り返し抽出は、発見アルゴリズムがユニークなメカニズムを回復するのではなく、有効な部分グラフの同値クラスからサンプリングされることを示唆している。
ソースレベルの評価は明らかに忠実さを増し、エッジレベルの評価は構造から機能への多対一マッピングを明らかにする。
その結果、回路間の構造的差異は、異なる機構の十分な証拠ではなく、これを露呈するには、エッジレベルの評価とクロスコンディション・トランスファーテストが必要であることが示唆された。
関連論文リスト
- Decompose to Understand, Fuse to Detect: Frequency-Decoupled Anomaly Detection for Encrypted Network Traffic [38.99819352589072]
この研究は、広範に広まるフル周波数特性と、スペクトルミスマッチと呼ばれる関連する制限の同定の先駆者である」。
FreeUpは、暗号化トラフィック分析のために明示的に設計された、新しい周波数分離フレームワークである。
論文 参考訳(メタデータ) (2026-05-03T13:44:41Z) - From Tensor Networks to Tractable Circuits, and back [4.942278642834429]
実際に魅力的なテンソルネットワークのクラスは、特定の特性を持つ回路のクラスに対応していることを示す。
特に、行列積状態(テンソルトレイン)が非決定論的エッジ値決定図と一致することを証明している。
論文 参考訳(メタデータ) (2026-04-30T18:01:40Z) - Quantum hardware noise learning via differentiable Kraus representation on tensor networks [0.0]
単一デバイス実験の計測分布から量子ハードウェアノイズを学習する手法を提案する。
独立チャネルは、各ネイティブゲートタイプ、最も近い隣り合うクロストークインタラクション、および状態準備と測定にアタッチされる。
ibm_fezでは、リップルキャリー加算回路のトレーニングがデバイス出力分布を再現し、再トレーニングせずに適用された同じ学習パラメータが無関係な乗算回路のデバイス分布を追跡する。
論文 参考訳(メタデータ) (2026-04-22T17:35:01Z) - Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees [5.156069978876762]
証明可能な保証付き回路を出力する自動アルゴリズムの組を提案する。
Input domain robustness*、*robust patching*、*minimality*の3つの保証にフォーカスします。
これら3つの保証のファミリーの間には、様々な理論的な関係が発見され、アルゴリズムの収束に重要な意味を持つ。
論文 参考訳(メタデータ) (2026-02-18T19:41:01Z) - Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection [58.535473924035365]
異常検出は自動産業検査において重要な役割を担い、他の均一な視覚パターンの微妙な欠陥や稀な欠陥を識別することを目的としている。
自己教師型オートエンコーダを用いて, 破損した入力の修復を学習する構造的異常検出に取り組む。
構造欠陥を模倣した画像に人工的破壊を注入する汚職モデルを導入する。
論文 参考訳(メタデータ) (2025-11-10T15:48:50Z) - Wavelet-Based Feature Extraction and Unsupervised Clustering for Parity Detection: A Feature Engineering Perspective [0.0]
本稿では,パリティ検出の古典的問題に対する,意図的に過度に設計されたアプローチについて考察する。
モジュラー演算に頼る代わりに、整数はウェーブレットドメイン表現に変換される。
得られた特徴空間は奇数と偶数の間に有意な構造的な違いを示し、分類精度は69.67%である。
論文 参考訳(メタデータ) (2025-10-29T11:41:36Z) - Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。
最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。
シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:10:40Z) - Which Tokens to Use? Investigating Token Reduction in Vision
Transformers [64.99704164972513]
4つの画像分類データセットを用いた10種類のトークン削減手法の削減パターンについて検討した。
トップKプルーニング法は驚くほど強力なベースラインであることがわかった。
リダクションパターンの類似性は、モデルパフォーマンスの適度なプロキシである。
論文 参考訳(メタデータ) (2023-08-09T01:51:07Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。