論文の概要: Certified Circuits: Stability Guarantees for Mechanistic Circuits
- arxiv url: http://arxiv.org/abs/2602.22968v1
- Date: Thu, 26 Feb 2026 13:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.69688
- Title: Certified Circuits: Stability Guarantees for Mechanistic Circuits
- Title(参考訳): 認証回路:機械回路の安定保証
- Authors: Alaa Anani, Tobias Lorenz, Bernt Schiele, Mario Fritz, Jonas Fischer,
- Abstract要約: Certified Circuitsは、回路発見のための証明可能な安定性を保証する。
ImageNetとOODデータセットでは、認定回路は91%高い精度を達成する。
- 参考スコア(独自算出の注目度): 80.30622018787835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how neural networks arrive at their predictions is essential for debugging, auditing, and deployment. Mechanistic interpretability pursues this goal by identifying circuits - minimal subnetworks responsible for specific behaviors. However, existing circuit discovery methods are brittle: circuits depend strongly on the chosen concept dataset and often fail to transfer out-of-distribution, raising doubts whether they capture concept or dataset-specific artifacts. We introduce Certified Circuits, which provide provable stability guarantees for circuit discovery. Our framework wraps any black-box discovery algorithm with randomized data subsampling to certify that circuit component inclusion decisions are invariant to bounded edit-distance perturbations of the concept dataset. Unstable neurons are abstained from, yielding circuits that are more compact and more accurate. On ImageNet and OOD datasets, certified circuits achieve up to 91% higher accuracy while using 45% fewer neurons, and remain reliable where baselines degrade. Certified Circuits puts circuit discovery on formal ground by producing mechanistic explanations that are provably stable and better aligned with the target concept. Code will be released soon!
- Abstract(参考訳): ニューラルネットワークが予測にどのように到着するかを理解することは、デバッグ、監査、デプロイメントに不可欠である。
機械的解釈可能性(Mechanistic Interpretability)は、特定の振る舞いに責任を負う最小限のサブネットワークを識別することで、この目標を追求する。
しかし、既存の回路発見法は脆弱であり、回路は選択された概念データセットに強く依存しており、しばしば分配の転送に失敗し、概念やデータセット固有のアーティファクトをキャプチャするかどうか疑問を呈する。
本稿では,回路発見のための信頼性保証を提供するCertified Circuitsを紹介する。
我々のフレームワークは、任意のブラックボックス発見アルゴリズムをランダム化されたデータサブサンプリングでラップし、回路成分の包含決定が概念データセットの有界編集距離摂動に不変であることを示す。
不安定なニューロンは吸収され、よりコンパクトで正確な回路が得られる。
ImageNetとOODデータセットでは、認定回路は45%少ないニューロンを使用しながら、最大91%の精度を実現し、ベースラインが劣化した場所で信頼性を維持している。
認証回路(Certified Circuits)は、目標概念と確実に安定し、より整合したメカニスティックな説明を生成することによって、正式な地上での回路発見を行う。
コードも間もなくリリースされるでしょう!
関連論文リスト
- A Fine-Grained and Efficient Reliability Analysis Framework for Noisy Quantum Circuits [1.688452856995602]
本稿では,ノイズ量子回路の信頼性評価を高精度かつ高精度に行うための,きめ細かな,スケーラブルで解釈可能なフレームワークを提案する。
提案手法は,回路の信頼性が実行中に徐々に劣化するかをモデル化するために,状態に依存しない解析を行う。
NPCに基づいて、キュービットレベルの信頼性と回路レベルの信頼性の両方を定量化する信頼性指標であるProxy Fidelityを定義する。
論文 参考訳(メタデータ) (2026-02-20T16:58:40Z) - Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees [5.156069978876762]
証明可能な保証付き回路を出力する自動アルゴリズムの組を提案する。
Input domain robustness*、*robust patching*、*minimality*の3つの保証にフォーカスします。
これら3つの保証のファミリーの間には、様々な理論的な関係が発見され、アルゴリズムの収束に重要な意味を持つ。
論文 参考訳(メタデータ) (2026-02-18T19:41:01Z) - Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models [3.7957452405531265]
PATCHESは,シンボル回帰のためのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムである。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
論文 参考訳(メタデータ) (2026-02-03T13:27:10Z) - Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework [4.336808542533343]
本研究は,属性パッチを用いて高電位部分グラフを同定するハイブリッド属性・プルーニングフレームワークを提案する。
回路忠実度を犠牲にすることなく,HAPはベースラインアルゴリズムよりも46%高速であることを示す。
論文 参考訳(メタデータ) (2025-09-28T18:34:43Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Transfer Learning for Fault Diagnosis of Transmission Lines [55.971052290285485]
事前学習されたLeNet-5畳み込みニューラルネットワークに基づく新しい伝達学習フレームワークを提案する。
ソースニューラルネットワークから知識を転送して、異種ターゲットデータセットを予測することで、異なる伝送ラインの長さとインピーダンスの障害を診断することができる。
論文 参考訳(メタデータ) (2022-01-20T06:36:35Z) - Hardware-Encoding Grid States in a Non-Reciprocal Superconducting
Circuit [62.997667081978825]
本稿では、非相互デバイスと、基底空間が2倍縮退し、基底状態がGottesman-Kitaev-Preskill(GKP)符号の近似符号であるジョセフソン接合からなる回路設計について述べる。
この回路は、電荷やフラックスノイズなどの超伝導回路の一般的なノイズチャネルに対して自然に保護されており、受動的量子誤差補正に使用できることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T16:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。