論文の概要: Circuit Insights: Towards Interpretability Beyond Activations
- arxiv url: http://arxiv.org/abs/2510.14936v1
- Date: Thu, 16 Oct 2025 17:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.985183
- Title: Circuit Insights: Towards Interpretability Beyond Activations
- Title(参考訳): Circuit Insights: アクティベーションを超えて解釈可能性を目指す
- Authors: Elena Golimblevskaia, Aakriti Jain, Bruno Puri, Ammar Ibrahim, Wojciech Samek, Sebastian Lapuschkin,
- Abstract要約: WeightLensとCircuitLensの2つの相補的手法を提案する。
WeightLensは学習したウェイトから直接機能を解釈し、説明モデルやデータセットの必要性を取り除く。
CircuitLensは、コンポーネント間のインタラクションから機能アクティベーションがどのように発生し、回路レベルのダイナミクスを明らかにするのかをキャプチャする。
- 参考スコア(独自算出の注目度): 20.178085579725472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fields of explainable AI and mechanistic interpretability aim to uncover the internal structure of neural networks, with circuit discovery as a central tool for understanding model computations. Existing approaches, however, rely on manual inspection and remain limited to toy tasks. Automated interpretability offers scalability by analyzing isolated features and their activations, but it often misses interactions between features and depends strongly on external LLMs and dataset quality. Transcoders have recently made it possible to separate feature attributions into input-dependent and input-invariant components, providing a foundation for more systematic circuit analysis. Building on this, we propose WeightLens and CircuitLens, two complementary methods that go beyond activation-based analysis. WeightLens interprets features directly from their learned weights, removing the need for explainer models or datasets while matching or exceeding the performance of existing methods on context-independent features. CircuitLens captures how feature activations arise from interactions between components, revealing circuit-level dynamics that activation-only approaches cannot identify. Together, these methods increase interpretability robustness and enhance scalable mechanistic analysis of circuits while maintaining efficiency and quality.
- Abstract(参考訳): 説明可能なAIと機械論的解釈の分野は、ニューラルネットワークの内部構造を明らかにすることを目的としており、回路発見はモデル計算を理解するための中心的なツールである。
しかし、既存のアプローチは手動検査に依存しており、おもちゃの作業に限られている。
自動解釈可能性(Automated Interpretability)は、分離された機能とそのアクティベーションを分析することによってスケーラビリティを提供するが、しばしば機能間の相互作用を見逃し、外部のLLMとデータセットの品質に強く依存する。
トランスコーダは、最近、入力依存および入力不変のコンポーネントに特徴属性を分離できるようにし、より体系的な回路解析の基礎を提供する。
そこで我々はWeightLensとCircuitLensという2つの補完手法を提案する。
WeightLensは学習したウェイトから直接機能を解釈し、コンテキストに依存しない機能で既存のメソッドのパフォーマンスをマッチまたは超過しながら、説明モデルやデータセットの必要性を取り除く。
CircuitLensはコンポーネント間のインタラクションから機能アクティベーションがどのように発生しているかをキャプチャし、アクティベーションのみのアプローチでは特定できない回路レベルのダイナミクスを明らかにする。
これらの手法は、解釈可能性の堅牢性を高め、効率と品質を維持しつつ、回路のスケーラブルな力学解析を強化する。
関連論文リスト
- Modeling Transformers as complex networks to analyze learning dynamics [0.2538209532048867]
本研究は,複雑なネットワーク理論のレンズを用いて,動的学習を特徴付けることができるかどうかを考察する。
ノードがモデルの計算コンポーネントである有向重み付きグラフとして、トランスフォーマーベースのモデルを表現するための新しい手法を紹介します。
グラフ理論の一連のメトリクスを分析して、ネットワークの構造が探索、統合、洗練の異なるフェーズを通して進化することを明らかにする。
論文 参考訳(メタデータ) (2025-09-18T10:20:26Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - Inducing, Detecting and Characterising Neural Modules: A Pipeline for Functional Interpretability in Reinforcement Learning [1.597617022056624]
ネットワーク重みの空間性と局所性がRLポリシネットワークにおける機能モジュールの出現にいかに寄与するかを示す。
これらの手法を2Dおよび3D MiniGrid環境に適用すると、異なる軸に対して異なるナビゲーションモジュールが一貫した出現を示す。
論文 参考訳(メタデータ) (2025-01-28T17:02:16Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks [0.0]
Local Interaction Basisは、無関係なアクティベーションとインタラクションを取り除くことによって、計算的特徴を特定することを目的としている。
モジュラ付加モデルとCIFAR-10モデルにおけるLIBの有効性を評価する。
我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。
論文 参考訳(メタデータ) (2024-05-17T17:27:19Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Transforming Feature Space to Interpret Machine Learning Models [91.62936410696409]
この貢献は、特徴空間変換のレンズを通して機械学習モデルを解釈する新しいアプローチを提案する。
非条件的および条件付きポストホック診断ツールの拡張に使用できる。
提案手法の可能性を実証するために,46特徴のリモートセンシング土地被覆分類の事例研究を行った。
論文 参考訳(メタデータ) (2021-04-09T10:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。