論文の概要: Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.14477v1
- Date: Wed, 15 Apr 2026 23:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.647127
- Title: Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers
- Title(参考訳): 回路を通して見る:視覚変換器の忠実メカニスティック解釈可能性
- Authors: Nina Żukowska, Wolfgang Stammer, Bernt Schiele, Jonas Fischer,
- Abstract要約: 視覚変換器の計算グラフから有用なメカニスティック回路を同定できるかどうかを検討する。
分類のためのクラス固有の回路を復元するビジュアル・サーキット・ディスカバリー(Vi-CD)の効果的な手法を提案する。
これらのモデルの内部計算に透明性を加えることで、視覚変換器から洞察に富み、行動可能なエッジベース回路を復元できることが判明した。
- 参考スコア(独自算出の注目度): 54.2202951543048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transparency of neural networks' internal reasoning is at the heart of interpretability research, adding to trust, safety, and understanding of these models. The field of mechanistic interpretability has recently focused on studying task-specific computational graphs, defined by connections (edges) between model components. Such edge-based circuits have been defined in the context of large language models, yet vision-based approaches so far only consider neuron-based circuits. These tell which information is encoded, but not how it is routed through the complex wiring of a neural network. In this work, we investigate whether useful mechanistic circuits can be identified through computational graphs in vision transformers. We propose an effective method for Automatic Visual Circuit Discovery (Vi-CD) that recovers class-specific circuits for classification, identifies circuits underlying typographic attacks in CLIP, and discovers circuits that lend themselves for steering to correct harmful model behavior. Overall, we find that insightful and actionable edge-based circuits can be recovered from vision transformers, adding transparency to the internal computations of these models.
- Abstract(参考訳): ニューラルネットワークの内部推論の透明性は、解釈可能性研究の中心であり、これらのモデルの信頼性、安全性、理解を追加している。
機械論的解釈可能性の分野は、最近、モデルコンポーネント間の接続(エッジ)によって定義されるタスク固有の計算グラフの研究に焦点が当てられている。
このようなエッジベースの回路は、大きな言語モデルの文脈で定義されてきたが、これまでの視覚ベースのアプローチではニューロンベースの回路しか考慮していない。
これらは、どの情報が符号化されているかを示すが、どのようにニューラルネットワークの複雑な配線を通してルートされるかは示さない。
本研究では,視覚変換器の計算グラフから有用なメカニスティック回路を同定できるかどうかを検討する。
分類のためのクラス固有の回路を復元し,CLIPのタイポグラフィー攻撃を基盤とした回路を同定し,有害なモデル動作を正すためにステアリングを自在に行う回路を発見する,視覚回路自動探索(Vi-CD)の有効な手法を提案する。
全体として、洞察に富んだエッジベースの回路を視覚変換器から回収し、これらのモデルの内部計算に透明性を加えることができる。
関連論文リスト
- Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.89563355840371]
言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T11:36:45Z) - InterpBench: Semi-Synthetic Transformers for Evaluating Mechanistic Interpretability Techniques [8.383131649026804]
我々は、Strict IIT(SIIT)と呼ばれる、より厳格なIIT(Interchange Intervention Training)を用いて、単純なニューラルネットワークを訓練する。
我々は,Tracr ツールが生成するスパース変換器上でSIITを評価し,SIIT モデルがトラクラのオリジナル回路をよりリアルに維持していることを確認した。
論文 参考訳(メタデータ) (2024-07-19T17:46:51Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文 参考訳(メタデータ) (2023-05-24T04:08:37Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。