論文の概要: Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees
- arxiv url: http://arxiv.org/abs/2602.16823v1
- Date: Wed, 18 Feb 2026 19:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.314328
- Title: Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees
- Title(参考訳): 形式的機械的解釈可能性:確率的保証を伴う自動回路発見
- Authors: Itamar Hadad, Guy Katz, Shahaf Bassan,
- Abstract要約: 証明可能な保証付き回路を出力する自動アルゴリズムの組を提案する。
Input domain robustness*、*robust patching*、*minimality*の3つの保証にフォーカスします。
これら3つの保証のファミリーの間には、様々な理論的な関係が発見され、アルゴリズムの収束に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 5.156069978876762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: *Automated circuit discovery* is a central tool in mechanistic interpretability for identifying the internal components of neural networks responsible for specific behaviors. While prior methods have made significant progress, they typically depend on heuristics or approximations and do not offer provable guarantees over continuous input domains for the resulting circuits. In this work, we leverage recent advances in neural network verification to propose a suite of automated algorithms that yield circuits with *provable guarantees*. We focus on three types of guarantees: (1) *input domain robustness*, ensuring the circuit agrees with the model across a continuous input region; (2) *robust patching*, certifying circuit alignment under continuous patching perturbations; and (3) *minimality*, formalizing and capturing a wide array of various notions of succinctness. Interestingly, we uncover a diverse set of novel theoretical connections among these three families of guarantees, with critical implications for the convergence of our algorithms. Finally, we conduct experiments with state-of-the-art verifiers on various vision models, showing that our algorithms yield circuits with substantially stronger robustness guarantees than standard circuit discovery methods, establishing a principled foundation for provable circuit discovery.
- Abstract(参考訳): ※自動回路発見*は、特定の行動に責任があるニューラルネットワークの内部成分を特定するための機械的解釈可能性の中心的なツールである。
従来の手法は大きな進歩を遂げているが、通常はヒューリスティックや近似に依存しており、結果の回路に対して連続的な入力領域よりも証明可能な保証を提供していない。
本研究では、ニューラルネットワーク検証の最近の進歩を活用し、*証明可能な保証*の回路を出力する一連の自動アルゴリズムを提案する。
1)入力領域の堅牢性*,回路が連続的な入力領域全体にわたってモデルに一致することを保証すること,(2)ロバストパッチ*,連続的なパッチング摂動下での回路アライメントの認証,(3)ミニマリティ*,そして,様々な簡潔性の概念を定式化し,捉えること,の3つの保証に焦点をあてる。
興味深いことに、これらの3つの保証のファミリーの間に様々な理論的な関係が発見され、アルゴリズムの収束に重要な意味を持つ。
最後に, 各種ビジョンモデルを用いた最先端検証実験を行い, 提案アルゴリズムが標準回路発見法よりも強い堅牢性を保証する回路を生成できることを示し, 証明可能な回路発見の原理的基礎を確立した。
関連論文リスト
- Rethinking Circuit Completeness in Language Models: AND, OR, and ADDER Gates [35.90665719234101]
論理ゲートはAND,OR,ADDERの3種類の論理ゲートを導入し,回路を論理ゲートの組み合わせに分解する。
本稿では,既存の回路発見手法に容易に組み込むことが可能な,ノイズ発生に基づく介入と雑音発生に基づく介入を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T07:35:14Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Sheaf Discovery with Joint Computation Graph Pruning and Flexible Granularity [18.71252449465396]
ニューラルネットワークモデル(LM)から自己完結型モジュールユニットを抽出するフレームワークであるDiscoGPを紹介する。
筆者らのフレームワークは,両者をグラデーション・ベース・プルーニング・アルゴリズムを用いてせん断を同定し,この手法により元のLMを,特定のコア機能を保持するスパーススケルトンに還元する。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Evidential Turing Processes [11.021440340896786]
我々は、明らかなディープラーニング、ニューラルプロセス、ニューラルチューリングマシンのオリジナルの組み合わせを紹介する。
本稿では,3つの画像分類ベンチマークと2つのニューラルネットアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-06-02T15:09:20Z) - Efficient and robust certification of genuine multipartite entanglement
in noisy quantum error correction circuits [58.720142291102135]
実効多部絡み(GME)認証のための条件付き目撃手法を導入する。
線形な二分割数における絡み合いの検出は, 多数の測定値によって線形にスケールし, GMEの認証に十分であることを示す。
本手法は, 距離3の位相的カラーコードとフラグベースの耐故障バージョンにおける安定化作用素の雑音可読化に適用する。
論文 参考訳(メタデータ) (2020-10-06T18:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。