論文の概要: No Single Metric Tells the Whole Story: A Multi-Dimensional Evaluation Framework for Uncertainty Attributions
- arxiv url: http://arxiv.org/abs/2603.24524v1
- Date: Wed, 25 Mar 2026 17:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.398392
- Title: No Single Metric Tells the Whole Story: A Multi-Dimensional Evaluation Framework for Uncertainty Attributions
- Title(参考訳): 不確実性属性のための多次元評価フレームワーク「Single Metrics」
- Authors: Emily Schiller, Teodor Chiaburu, Marco Zullich, Luca Longo,
- Abstract要約: 入力特徴に起因して予測の不確実性を説明する手法が提案されている。
本稿では, 正確性, 一貫性, 連続性, コンパクト性に関する具体的実装を提案する。
我々は,不確実性定量化と特徴帰属法を組み合わせた8つの指標を用いた評価枠組みを実証した。
- 参考スコア(独自算出の注目度): 0.31498833540989407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on explainable AI (XAI) has frequently focused on explaining model predictions. More recently, methods have been proposed to explain prediction uncertainty by attributing it to input features (uncertainty attributions). However, the evaluation of these methods remains inconsistent as studies rely on heterogeneous proxy tasks and metrics, hindering comparability. We address this by aligning uncertainty attributions with the well-established Co-12 framework for XAI evaluation. We propose concrete implementations for the correctness, consistency, continuity, and compactness properties. Additionally, we introduce conveyance, a property tailored to uncertainty attributions that evaluates whether controlled increases in epistemic uncertainty reliably propagate to feature-level attributions. We demonstrate our evaluation framework with eight metrics across combinations of uncertainty quantification and feature attribution methods on tabular and image data. Our experiments show that gradient-based methods consistently outperform perturbation-based approaches in consistency and conveyance, while Monte-Carlo dropconnect outperforms Monte-Carlo dropout in most metrics. Although most metrics rank the methods consistently across samples, inter-method agreement remains low. This suggests no single metric sufficiently evaluates uncertainty attribution quality. The proposed evaluation framework contributes to the body of knowledge by establishing a foundation for systematic comparison and development of uncertainty attribution methods.
- Abstract(参考訳): 説明可能なAI(XAI)の研究は、しばしばモデル予測の説明に焦点を当てている。
最近では、入力特徴(不確かさ属性)に起因する予測の不確実性を説明する手法が提案されている。
しかし、これらの手法の評価は、異種プロキシタスクやメトリクスに依存するため、相容れないままである。
我々は、XAI評価のための確立されたCo-12フレームワークと不確実性属性を一致させることで、この問題に対処する。
本稿では, 正確性, 一貫性, 連続性, コンパクト性に関する具体的実装を提案する。
さらに,不確実性属性に適合したコンパタンスを導入し,機能レベルの属性に確実に伝播するてんかんの不確実性の増加の有無を評価する。
本研究では,不確かさの定量化と,表や画像データに対する特徴帰属法を組み合わせた8つの指標を用いた評価手法を実証する。
実験の結果,モンテカルロのドロップコネクションはモンテカルロのドロップアウトよりも高い結果が得られるのに対し,勾配に基づく手法は一貫性と搬送性において摂動に基づくアプローチを一貫して上回っていることがわかった。
ほとんどのメトリクスは、サンプル間で一貫してメソッドをランク付けするが、メソッド間の合意は低いままである。
これは、不確実性属性の品質を十分に評価する指標は存在しないことを示唆している。
提案する評価枠組みは,不確実性帰属手法の体系的比較と開発のための基盤を確立することにより,知識の体系に寄与する。
関連論文リスト
- Uncertainty Propagation in XAI: A Comparison of Analytical and Empirical Estimators [1.0855602842179624]
説明可能なAI(XAI)の不確実性を理解することは、信頼の構築に不可欠である。
本稿では,XAIにおける不確実性を定量化し,解釈するための統一的な枠組みを提案する。
分析的および実証的な説明分散の推定値を用いて、説明の不確かさが説明に与える影響を評価する体系的な手段を提供する。
論文 参考訳(メタデータ) (2025-04-01T07:06:31Z) - Probabilistic Modeling of Disparity Uncertainty for Robust and Efficient Stereo Matching [61.73532883992135]
本稿では,新しい不確実性を考慮したステレオマッチングフレームワークを提案する。
我々はベイズリスクを不確実性の測定として採用し、データを別々に見積もり、不確実性をモデル化する。
論文 参考訳(メタデータ) (2024-12-24T23:28:20Z) - From Risk to Uncertainty: Generating Predictive Uncertainty Measures via Bayesian Estimation [5.355925496689674]
私たちは、異なる予測の不確実性対策を作成できるフレームワークを構築します。
本手法は,分布外および誤分類インスタンスの検出において,その性能を評価することにより,画像データセット上での検証を行う。
論文 参考訳(メタデータ) (2024-02-16T14:40:22Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - What is Flagged in Uncertainty Quantification? Latent Density Models for
Uncertainty Categorization [68.15353480798244]
不確実性定量化(UQ)は、信頼できる機械学習モデルを作成する上で不可欠である。
近年、疑わしい事例にフラグを立てるUQ手法が急上昇している。
分類タスクにおけるUQ手法によってフラグ付けされた不確実な例を分類する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-11T19:47:00Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep
Learning [70.72363097550483]
本研究では,画像分類における領域内不確実性に着目した。
そこで本研究では,ディープアンサンブル等価スコア(DEE)を導入する。
論文 参考訳(メタデータ) (2020-02-15T23:28:19Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Uncertainty-Based Out-of-Distribution Classification in Deep
Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。
我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。
UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文 参考訳(メタデータ) (2019-12-31T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。