論文の概要: How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations
- arxiv url: http://arxiv.org/abs/2503.00641v1
- Date: Sat, 01 Mar 2025 22:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:01.850887
- Title: How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations
- Title(参考訳): 調査方法:ポストホック説明を改善するためのシンプルで効果的な手法
- Authors: Siddhartha Gairola, Moritz Böhle, Francesco Locatello, Bernt Schiele,
- Abstract要約: ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 69.72654127617058
- License:
- Abstract: Post-hoc importance attribution methods are a popular tool for "explaining" Deep Neural Networks (DNNs) and are inherently based on the assumption that the explanations can be applied independently of how the models were trained. Contrarily, in this work we bring forward empirical evidence that challenges this very notion. Surprisingly, we discover a strong dependency on and demonstrate that the training details of a pre-trained model's classification layer (less than 10 percent of model parameters) play a crucial role, much more than the pre-training scheme itself. This is of high practical relevance: (1) as techniques for pre-training models are becoming increasingly diverse, understanding the interplay between these techniques and attribution methods is critical; (2) it sheds light on an important yet overlooked assumption of post-hoc attribution methods which can drastically impact model explanations and how they are interpreted eventually. With this finding we also present simple yet effective adjustments to the classification layers, that can significantly enhance the quality of model explanations. We validate our findings across several visual pre-training frameworks (fully-supervised, self-supervised, contrastive vision-language training) and analyse how they impact explanations for a wide range of attribution methods on a diverse set of evaluation metrics.
- Abstract(参考訳): ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールであり、モデルがどのようにトレーニングされたかに関わらず、説明が適用可能であるという前提に基づいている。
対照的に、本研究では、この概念に挑戦する経験的証拠を提示します。
驚くべきことに、トレーニング済みモデルの分類層(モデルのパラメータの10%未満)のトレーニング詳細が、トレーニング済みのスキーム自体よりもはるかに重要な役割を担っていることを発見した。
これは,(1)事前学習の手法が多様化するにつれて,これらの手法と帰属法との相互作用を理解することが重要であること,(2)モデルの説明や最終的にどのように解釈されるかに大きく影響しうるポストホック帰属法の重要な仮定に光を当てること,といった実践的関連性が高い。
この発見により、モデル説明の質を著しく向上させるため、分類層に対して単純かつ効果的な調整を行うことができる。
我々は,複数の視覚前訓練フレームワーク(教師付き,自己指導型,コントラスト型視覚言語訓練)にまたがる知見を検証し,多種多様な評価指標に対する多種多様な帰属法の説明にどのように影響するかを分析した。
関連論文リスト
- Leveraging counterfactual concepts for debugging and improving CNN model performance [1.1049608786515839]
本稿では,画像分類タスクにおけるCNNモデルの性能向上を目的とした,反現実的概念を活用することを提案する。
提案手法は, 意思決定プロセスにおいて重要なフィルタを特定するために, 対実的推論を利用する。
反事実的説明を取り入れることで、未知のモデル予測を検証し、誤分類を識別する。
論文 参考訳(メタデータ) (2025-01-19T15:50:33Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Simple Control Baselines for Evaluating Transfer Learning [1.0499611180329802]
我々は,伝達学習のパフォーマンスを定量化し,伝達することを目的とした評価基準を共有している。
自己教師型学習に関するいくつかの基本的な質問について,実証的研究を例に紹介する。
論文 参考訳(メタデータ) (2022-02-07T17:26:26Z) - DIVINE: Diverse Influential Training Points for Data Visualization and
Model Refinement [32.045420977032926]
本稿では,モデル行動の有用な説明として,DIVerse InfluEntial (DIVINE) トレーニングポイントのセットを選択する手法を提案する。
本手法は,公平性向上のために除去できる不公平性誘導訓練点を同定することができる。
論文 参考訳(メタデータ) (2021-07-13T10:50:58Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。