論文の概要: Systematic Evaluation of Attribution Methods: Eliminating Threshold Bias and Revealing Method-Dependent Performance Patterns
- arxiv url: http://arxiv.org/abs/2509.03176v1
- Date: Wed, 03 Sep 2025 09:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.480862
- Title: Systematic Evaluation of Attribution Methods: Eliminating Threshold Bias and Revealing Method-Dependent Performance Patterns
- Title(参考訳): 属性手法の体系的評価:閾値バイアスの除去とメソッド依存性能パターンの探索
- Authors: Serra Aksoy,
- Abstract要約: 現在のプロトコルでは、属性マップを単一のしきい値でバイナライズしており、しきい値の選択だけでランキングを200ポイント以上変更することができる。
AUC-IoU (Area Under the Curve for Intersection over Union) を演算するしきい値のないフレームワークでこの問題に対処する。
XRAIは、LIMEよりも31%、バニラ統合グラディエントより204%改善し、サイズ階層化分析により、病変スケールで最大269%のパフォーマンス変化を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribution methods explain neural network predictions by identifying influential input features, but their evaluation suffers from threshold selection bias that can reverse method rankings and undermine conclusions. Current protocols binarize attribution maps at single thresholds, where threshold choice alone can alter rankings by over 200 percentage points. We address this flaw with a threshold-free framework that computes Area Under the Curve for Intersection over Union (AUC-IoU), capturing attribution quality across the full threshold spectrum. Evaluating seven attribution methods on dermatological imaging, we show single-threshold metrics yield contradictory results, while threshold-free evaluation provides reliable differentiation. XRAI achieves 31% improvement over LIME and 204% over vanilla Integrated Gradients, with size-stratified analysis revealing performance variations up to 269% across lesion scales. These findings establish methodological standards that eliminate evaluation artifacts and enable evidence-based method selection. The threshold-free framework provides both theoretical insight into attribution behavior and practical guidance for robust comparison in medical imaging and beyond.
- Abstract(参考訳): 属性法は、影響力のある入力特徴を特定することによってニューラルネットワークの予測を説明するが、その評価は、メソッドランキングを逆転させ、結論を損なうことができるしきい値選択バイアスに悩まされる。
現在のプロトコルでは、属性マップを単一のしきい値でバイナライズしており、しきい値の選択だけでランキングを200ポイント以上変更することができる。
この欠陥に対処するため、AUC-IoU (Area Under the Curve for Intersection over Union) を計算し、フルしきい値スペクトルの属性品質を取得する。
皮膚画像における7つの属性法の評価を行い, 単一閾値の指標が相反する結果を示す一方, 閾値のない評価は信頼性の高い鑑別を提供する。
XRAIは、LIMEよりも31%、バニラ統合グラディエントより204%改善し、サイズ階層化分析により、病変スケールで最大269%のパフォーマンス変化を示した。
これらの知見は,評価成果を排除し,エビデンスに基づく方法選択を可能にする手法標準を確立した。
しきい値のないフレームワークは、帰属行動の理論的洞察と、医療画像などにおける堅牢な比較のための実践的ガイダンスの両方を提供する。
関連論文リスト
- Flexible Nonparametric Inference for Causal Effects under the Front-Door Model [2.6900047294457683]
本研究では, 平均治療効果, 平均治療効果の両面から, 新規な1段階, 目標最小損失ベース推定装置を開発した。
我々の推定器は観測されたデータ分布のパラメータ化に基づいて構築され、メディエータ密度を完全に回避するアプローチを含む。
因果効果推定器の効率を向上させるためにこれらの制約をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - Post-hoc Orthogonalization for Mitigation of Protected Feature Bias in CXR Embeddings [10.209740962369453]
深層学習モデルの胸部X線写真埋め込みにおける保護的特徴効果の分析と除去を行う。
実験では、保護された特徴が病理の予測に重大な影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2023-11-02T15:59:00Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Causal Inference under Data Restrictions [0.0]
この論文は、不確実性とデータ制限の下での現代の因果推論に焦点を当てている。
これには、ネオアジュバント臨床試験、分散データネットワーク、堅牢な個別化意思決定へのアプリケーションが含まれる。
論文 参考訳(メタデータ) (2023-01-20T20:14:32Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Exploring Instance-Level Uncertainty for Medical Detection [16.637462795585773]
本研究では、2つの異なる境界ボックスレベル(またはインスタンスレベル)の不確実性推定で2.5D検出CNNを増強する。
LUNA16データセットの肺結節検出のための実験は、重要な意味的曖昧さが存在する可能性があるタスクである。
その結果,両種類の分散の組み合わせを用いて評価スコアを84.57%から88.86%に改善した。
論文 参考訳(メタデータ) (2020-12-23T18:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。