論文の概要: Minimalist Explanation Generation and Circuit Discovery
- arxiv url: http://arxiv.org/abs/2509.25686v1
- Date: Tue, 30 Sep 2025 02:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.987593
- Title: Minimalist Explanation Generation and Circuit Discovery
- Title(参考訳): ミニマリスト記述生成と回路発見
- Authors: Pirzada Suhail, Aditya Anand, Amit Sethi,
- Abstract要約: 本稿では,機械学習決定のための最小限の説明を生成するために,アクティベーションマッチングに基づくアプローチを提案する。
我々は、画像の判断的に重要な領域をハイライトするバイナリマスクを生成するために、軽量なオートエンコーダを訓練する。
このような最小限の説明は、モデル内部を機械的に解釈するきっかけにもなります。
- 参考スコア(独自算出の注目度): 10.850989126934317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models, by virtue of training, learn a large repertoire of decision rules for any given input, and any one of these may suffice to justify a prediction. However, in high-dimensional input spaces, such rules are difficult to identify and interpret. In this paper, we introduce an activation-matching based approach to generate minimal and faithful explanations for the decisions of pre-trained image classifiers. We aim to identify minimal explanations that not only preserve the model's decision but are also concise and human-readable. To achieve this, we train a lightweight autoencoder to produce binary masks that learns to highlight the decision-wise critical regions of an image while discarding irrelevant background. The training objective integrates activation alignment across multiple layers, consistency at the output label, priors that encourage sparsity, and compactness, along with a robustness constraint that enforces faithfulness. The minimal explanations so generated also lead us to mechanistically interpreting the model internals. In this regard we also introduce a circuit readout procedure wherein using the explanation's forward pass and gradients, we identify active channels and construct a channel-level graph, scoring inter-layer edges by ingress weight magnitude times source activation and feature-to-class links by classifier weight magnitude times feature activation. Together, these contributions provide a practical bridge between minimal input-level explanations and a mechanistic understanding of the internal computations driving model decisions.
- Abstract(参考訳): 機械学習モデルは、トレーニングによって、任意の入力に対する決定ルールの大規模なレパートリーを学習し、これらのいずれかが予測を正当化するのに十分である。
しかし、高次元の入力空間では、そのような規則を識別し解釈することは困難である。
本稿では,事前学習した画像分類器の決定に対して,最小限かつ忠実な説明を生成するために,アクティベーションマッチングに基づくアプローチを提案する。
モデルの決定を保存できるだけでなく、簡潔で可読である最小限の説明を識別することを目的としている。
これを実現するために、我々は軽量なオートエンコーダを訓練し、無関係な背景を捨てながら、画像の判断的に重要な領域を強調することを学習するバイナリマスクを生成する。
トレーニングの目的は、複数のレイヤ間でのアクティベーションアライメント、アウトプットラベルでの一貫性、空間性、コンパクト性を奨励する先行性、忠実性を強制する堅牢性制約を統合することである。
このような最小限の説明は、モデル内部を機械的に解釈するきっかけにもなります。
この点に関しては、説明の前方通過と勾配を用いて、アクティブチャネルを識別し、チャネルレベルグラフを構築し、入力重大時間ソースアクティベーションによる層間エッジと、分類器重大時間特徴アクティベーションによる特徴-クラスリンクをスコアリングする回路読み出し手順も導入する。
これらの貢献は、最小限の入力レベルの説明と、モデル決定を駆動する内部計算の機械的理解の間に実践的な橋渡しを提供する。
関連論文リスト
- Activation Matching for Explanation Generation [10.850989126934317]
我々は、任意の画像上の事前訓練された分類器の決定について、最小限の忠実な説明を生成する。
我々は軽量オートエンコーダを訓練してバイナリマスク(m)を出力し、説明(e = m odot x)がモデルの予測と(x)の中間活性化の両方を保存する。
i) 画像と説明の両方においてトップ1ラベルを保持するために分布とクロスエントロピーを整列するKL発散と多層アクティベーションマッチングを組み合わせる。
論文 参考訳(メタデータ) (2025-09-27T02:12:09Z) - Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification [89.20477310885731]
本稿では,粒度分類タスクにおけるグラニュラリティコンペティションの課題について述べる。
既存のアプローチは通常、共通のベースエンコーダから抽出された共有特徴に基づいて、独立した階層認識モデルを開発する。
グラニュラリティ再構成のための双方向ロジットツリー(BiLT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:42:19Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - On the Interpretability of Attention Networks [1.299941371793082]
注意モデルがどのように正確かを示すが、解釈できないことを示し、そのようなモデルがトレーニングの結果として発生することを示す。
空間性を促進するために設計されたいくつかの注意モデル学習アルゴリズムを評価し、これらのアルゴリズムが解釈可能性を向上させることを実証する。
論文 参考訳(メタデータ) (2022-12-30T15:31:22Z) - When less is more: Simplifying inputs aids neural network understanding [12.73748893809092]
本研究では,事前学習した生成モデルによって与えられる符号化ビットサイズを用いて,単純さを計測する。
本稿では, 従来の訓練, データセットの凝縮, ポストホックな説明など, 単純化の効果について検討する。
論文 参考訳(メタデータ) (2022-01-14T18:58:36Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Forgetting Outside the Box: Scrubbing Deep Networks of Information
Accessible from Input-Output Observations [143.3053365553897]
本稿では、訓練された深層ネットワークからトレーニングデータのコホートへの依存を取り除く手順について述べる。
忘れられたコホートについて,クエリ毎にどれだけの情報を取り出すことができるか,という新たな境界を導入する。
我々は,ニューラルタンジェントカーネルにインスパイアされたDNNのアクティベーションとウェイトダイナミクスの接続を利用して,アクティベーションの情報を計算する。
論文 参考訳(メタデータ) (2020-03-05T23:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。