論文の概要: Measuring the (Un)Faithfulness of Concept-Based Explanations
- arxiv url: http://arxiv.org/abs/2504.10833v2
- Date: Sun, 26 Oct 2025 14:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.471477
- Title: Measuring the (Un)Faithfulness of Concept-Based Explanations
- Title(参考訳): 概念に基づく説明の(Un)Fithfulnessの測定
- Authors: Shubham Kumar, Narendra Ahuja,
- Abstract要約: ポストホックで教師なしの概念に基づく説明法は、視覚モデルの内部推論を人間の理解できない概念に変換する。
我々は、多くの最先端(SOTA) U-CBEMが忠実でないことを発見し、それらの概念は解釈可能であるように思われるが、モデルの予測を再現することができない。
本稿では,モデルの出力に説明をマッピングするサロゲートの予測損失を通じて忠実度を定量化するサロゲート忠実度尺度を提案する。
- 参考スコア(独自算出の注目度): 11.120817376473385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc, unsupervised concept-based explanation methods (U-CBEMs) translate a vision model's internal reasoning into human-understandable concepts, leading to interpretable explanations. However, we find that many state-of-the-art (SOTA) U-CBEMs are not faithful: their concepts seem interpretable but fail to reproduce the model's predictions. We argue that this deficiency has gone unnoticed due to fragmented evaluation - each paper proposes its own faithfulness measure, with no measure-over-measure comparison or broad benchmarking. We close this gap by (i) organizing prior metrics in a unified framework, discussing their limitations, and identifying desiderata for a faithfulness measure; (ii) introducing the Surrogate Faithfulness (SURF) measure, which quantifies faithfulness via the predictive loss of a surrogate that maps explanations to the model's outputs; and (iii) delivering the first comprehensive U-CBEM faithfulness benchmark across diverse tasks and architectures. In a controlled setting, SURF outperforms prior faithfulness measures in measure-over-measure comparisons, and applying SURF to SOTA U-CBEMs reveals that many visually appealing U-CBEMs are surprisingly unfaithful. We demonstrate SURF applicability in two downstream settings - (i) faithfulness versus the number of concepts used in the explanation and (ii) U-CBEM robustness to adversarial attacks - underscoring SURF's value as a reliable faithfulness measure. Code to be released.
- Abstract(参考訳): ポストホックで教師なしの概念に基づく説明法(U-CBEM)は、視覚モデルの内的推論を人間の理解可能な概念に翻訳し、解釈可能な説明をもたらす。
しかし、多くの最先端(SOTA) U-CBEM は忠実ではないことが判明し、それらの概念は解釈可能であるように思われるが、モデルの予測を再現できない。
この欠陥は断片的な評価によって認識されず、各論文はそれぞれの信頼度尺度を提案しており、測定オーバー・アセスメント比較や広範囲なベンチマークは行われていない。
私たちはこのギャップを埋める
一 事前のメトリクスを統一的な枠組みで整理し、その限界を議論し、信心度を測るためにデシダラタを識別すること。
二 モデルの出力に説明をマッピングする代理の予測損失により忠実度を定量化する代理忠実度(SURF)尺度を導入すること。
(iii) 多様なタスクやアーキテクチャにまたがる初の包括的な U-CBEM 忠実度ベンチマークを提供する。
制御された環境では、SURFは測定上比較において事前の忠実度対策よりも優れており、SURFをSOTA U-CBEMに適用すると、多くの視覚的にアピールするU-CBEMが驚くほど不信であることがわかる。
下流2つの設定でSURFの適用性を示す。
一 説明に使用する概念の数に対する忠実さ
(II) 敵攻撃に対するU-CBEM堅牢性 - 信頼度尺度としてのSURFの価値を裏付ける。
リリースするコード。
関連論文リスト
- Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Towards Robust and Reliable Concept Representations: Reliability-Enhanced Concept Embedding Model [22.865870813626316]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な概念を意思決定の中間体として予測することにより、解釈可能性を高めることを目的としている。
概念に関係のない特徴に対する感受性と、異なるサンプルの同じ概念に対する意味的一貫性の欠如である。
本稿では,Reliability-Enhanced Concept Embedding Model (RECEM) を提案する。Reliability-Enhanced Concept Embedding Model (RECEM) は2つの戦略を導入する。
論文 参考訳(メタデータ) (2025-02-03T09:29:39Z) - Concept-Based Explainable Artificial Intelligence: Metrics and Benchmarks [0.0]
概念に基づく説明手法は、機械学習モデルの解釈可能性を改善することを目的としている。
本稿では,大域的重要度,概念存在度,概念位置度という3つの指標を提案する。
多くの場合、ポストホックCBMによって決定される最も重要な概念でさえ、入力画像には存在しないことが示される。
論文 参考訳(メタデータ) (2025-01-31T16:32:36Z) - Concept-driven Off Policy Evaluation [2.789652596206117]
我々は、概念に基づくOPE推定器のファミリーを開発し、それらが偏りのないままであり、概念が知られ、事前定義されたときにばらつきを減らすことを証明した。
合成および実世界のデータセットを用いた実験により、既知のおよび学習された概念ベース推定器の両方がOPE性能を著しく向上させることが示された。
他のOPE法とは異なり、概念ベースの推定器は容易に解釈可能であり、特定の概念に対する標的的介入を可能にし、これらの推定器の品質をさらに向上させる。
論文 参考訳(メタデータ) (2024-11-28T22:15:06Z) - MulCPred: Learning Multi-modal Concepts for Explainable Pedestrian Action Prediction [57.483718822429346]
MulCPredは、トレーニングサンプルで表されるマルチモーダルな概念に基づいて、その予測を説明する。
MulCPredは複数のデータセットとタスクで評価される。
論文 参考訳(メタデータ) (2024-09-14T14:15:28Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Evaluating Readability and Faithfulness of Concept-based Explanations [35.48852504832633]
概念に基づく説明は、大規模言語モデルによって学習された高レベルのパターンを説明するための有望な道として現れます。
現在の手法は、統一的な形式化を欠いた異なる視点から概念にアプローチする。
これにより、概念の中核となる尺度、すなわち忠実さや可読性を評価するのが難しくなります。
論文 参考訳(メタデータ) (2024-04-29T09:20:25Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - DARE: Towards Robust Text Explanations in Biomedical and Healthcare
Applications [54.93807822347193]
帰属ロバスト性評価手法を与えられたドメインに適応させ、ドメイン固有の妥当性を考慮する方法を示す。
次に,DAREが特徴とする脆さを軽減するために,対人訓練とFAR訓練の2つの方法を提案する。
最後に,確立した3つのバイオメディカル・ベンチマークを用いて実験を行い,本手法を実証的に検証した。
論文 参考訳(メタデータ) (2023-07-05T08:11:40Z) - Networked Communication for Decentralised Agents in Mean-Field Games [59.01527054553122]
平均フィールドゲームフレームワークにネットワーク通信を導入する。
当社のアーキテクチャは、中央集権型と独立した学習ケースの双方で保証されていることを証明しています。
ネットワーク化されたアプローチは、障害の更新や人口規模の変化に対する堅牢性という点において、両方の選択肢に対して大きなメリットがあることが示されています。
論文 参考訳(メタデータ) (2023-06-05T10:45:39Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Entity Concept-enhanced Few-shot Relation Extraction [35.10974511223129]
長尾分布問題において,FSRE (Few-shot relation extract) が重要である。
ほとんどの既存のFSREアルゴリズムは、認識されたエンティティペアと共に文の情報に基づいて関係を正確に分類することができない。
本稿では,エンティティ固有の概念を導入し,関係予測の手がかりを提供する,エンティティ強化型FEw-shot Relation extract scheme(ConceptFERE)を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。