論文の概要: Rethinking Explanation Evaluation under the Retraining Scheme
- arxiv url: http://arxiv.org/abs/2511.08281v1
- Date: Wed, 12 Nov 2025 01:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.73521
- Title: Rethinking Explanation Evaluation under the Retraining Scheme
- Title(参考訳): リトレーニング・スキームにおける説明的評価の再考
- Authors: Yi Cai, Thibaud Ardoin, Mayank Gulati, Gerhard Wunder,
- Abstract要約: 本研究は,経験的観察と理論的期待の相違について考察する。
本稿では,説明評価に関する包括的視点を共同構築する新しい変種を提案する。
提案手法に従えば, 各種データスケールにおける実験結果から, 慎重に選択した説明者の性能についてより深い知見が得られる。
- 参考スコア(独自算出の注目度): 9.354592471340938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature attribution has gained prominence as a tool for explaining model decisions, yet evaluating explanation quality remains challenging due to the absence of ground-truth explanations. To circumvent this, explanation-guided input manipulation has emerged as an indirect evaluation strategy, measuring explanation effectiveness through the impact of input modifications on model outcomes during inference. Despite the widespread use, a major concern with inference-based schemes is the distribution shift caused by such manipulations, which undermines the reliability of their assessments. The retraining-based scheme ROAR overcomes this issue by adapting the model to the altered data distribution. However, its evaluation results often contradict the theoretical foundations of widely accepted explainers. This work investigates this misalignment between empirical observations and theoretical expectations. In particular, we identify the sign issue as a key factor responsible for residual information that ultimately distorts retraining-based evaluation. Based on the analysis, we show that a straightforward reframing of the evaluation process can effectively resolve the identified issue. Building on the existing framework, we further propose novel variants that jointly structure a comprehensive perspective on explanation evaluation. These variants largely improve evaluation efficiency over the standard retraining protocol, thereby enhancing practical applicability for explainer selection and benchmarking. Following our proposed schemes, empirical results across various data scales provide deeper insights into the performance of carefully selected explainers, revealing open challenges and future directions in explainability research.
- Abstract(参考訳): モデル決定を記述するためのツールとして,特徴帰属が注目されているが,基礎的真理的な説明が欠如しているため,説明の質を評価することは依然として困難である。
これを回避するために、間接評価戦略として説明誘導入力操作が登場し、推論中のモデル結果に対する入力修正の影響による説明の有効性を計測している。
広く使われているにもかかわらず、推論に基づくスキームに対する大きな懸念は、そのような操作によって引き起こされる分布シフトであり、それらの評価の信頼性を損なう。
Retraining-based scheme ROARは、変更したデータ分布にモデルを適応させることで、この問題を克服する。
しかし、その評価結果は広く受け入れられた説明者の理論的基礎と矛盾することが多い。
本研究は、経験的観察と理論的期待のこの相違について考察する。
特に,符号問題を残留情報に責任を持つ重要な要因として認識し,最終的に再学習に基づく評価を歪ませる。
この分析から,評価プロセスの直接的な再フレーミングにより,同定された問題を効果的に解決できることが示唆された。
さらに,既存の枠組みを基盤として,説明評価に関する包括的視点を共同構築する新たな変種を提案する。
これらの変種は、標準的なリトレーニングプロトコルよりも評価効率を大幅に改善し、説明器の選択とベンチマークのための実用的な適用性を向上させる。
提案手法に従えば、様々なデータスケールにわたる実験結果が、慎重に選択された説明者のパフォーマンスに関する深い洞察を与え、説明可能性研究におけるオープンな課題と今後の方向性を明らかにすることができる。
関連論文リスト
- Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。
このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。
以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-10-23T12:22:02Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。
我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Toward Understanding the Disagreement Problem in Neural Network Feature Attribution [0.8057006406834466]
ニューラルネットワークは 複雑なパターンと関係を 生のデータから識別する
これらのブラックボックスモデルの内部動作を理解することは、依然として難しいが、高い意思決定には不可欠である。
我々の研究は、説明の基本的な、分布的な振る舞いを調査することによって、この混乱に対処する。
論文 参考訳(メタデータ) (2024-04-17T12:45:59Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。