論文の概要: On the Definition and Detection of Cherry-Picking in Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2601.04977v1
- Date: Thu, 08 Jan 2026 14:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.233923
- Title: On the Definition and Detection of Cherry-Picking in Counterfactual Explanations
- Title(参考訳): 代替説明におけるチェリーピッキングの定義と検出について
- Authors: James Hinns, Sofie Goethals, Stephan Van der Veeken, Theodoros Evgeniou, David Martens,
- Abstract要約: 正当性説明のためのチェリーピッキングを正式に定義する。
実際に検出するのは極めて限られていることを示す。
我々は、安全対策は、ポストホック検出に対する優先順位、標準化、手続き上の制約を優先すべきであると主張している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual explanations are widely used to communicate how inputs must change for a model to alter its prediction. For a single instance, many valid counterfactuals can exist, which leaves open the possibility for an explanation provider to cherry-pick explanations that better suit a narrative of their choice, highlighting favourable behaviour and withholding examples that reveal problematic behaviour. We formally define cherry-picking for counterfactual explanations in terms of an admissible explanation space, specified by the generation procedure, and a utility function. We then study to what extent an external auditor can detect such manipulation. Considering three levels of access to the explanation process: full procedural access, partial procedural access, and explanation-only access, we show that detection is extremely limited in practice. Even with full procedural access, cherry-picked explanations can remain difficult to distinguish from non cherry-picked explanations, because the multiplicity of valid counterfactuals and flexibility in the explanation specification provide sufficient degrees of freedom to mask deliberate selection. Empirically, we demonstrate that this variability often exceeds the effect of cherry-picking on standard counterfactual quality metrics such as proximity, plausibility, and sparsity, making cherry-picked explanations statistically indistinguishable from baseline explanations. We argue that safeguards should therefore prioritise reproducibility, standardisation, and procedural constraints over post-hoc detection, and we provide recommendations for algorithm developers, explanation providers, and auditors.
- Abstract(参考訳): 因果的説明は、モデルが予測を変更するために入力をどのように変更する必要があるかを伝えるために広く用いられる。
一つの例では、有効なカウンターファクトが多数存在するため、説明提供者が自分の選択した物語に合うようなチェリーピックな説明をし、好ましくない振る舞いを強調し、問題のある振る舞いを示す例を無視する可能性も残されている。
本稿では,生成手順によって規定される許容可能な説明空間と実用機能の観点から,反実的説明のためのチェリーピッキングを正式に定義する。
次に,外部監査者がこのような操作をどの程度検出できるかを調査する。
本研究は, 完全手続き的アクセス, 部分手続き的アクセス, 説明のみアクセスの3段階を考慮し, 実際に検出が極めて限定されていることを示す。
完全な手続き的アクセスであっても, チェリーピックな説明と非チェリーピックな説明を区別することは困難であり, 説明明細書における有効な反事実の多さと柔軟性は, 意図的な選択を隠蔽する十分な自由度を与える。
実験により, この変数は, 近接性, 可視性, 疎性などの標準的な品質指標に対するチェリーピッキングの影響を克服し, チェリーピッキングによる説明がベースラインの説明と統計的に区別できないことを実証した。
したがって,セーフガードは,ポストホック検出に対する再現性,標準化,手続き的制約を優先すべきであり,アルゴリズム開発者,説明提供者,監査者に推奨する。
関連論文リスト
- Auditing Local Explanations is Hard [14.172657936593582]
本研究では,第三者監査官やユーザ集団が健全性検査を行う監査フレームワークについて検討する。
監査人がこのフレームワーク内で成功するために必要なクエリの量について、上位と下位のバウンダリを証明します。
以上の結果から,複雑な高次元設定では,ポイントワイドな予測と説明が不十分である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-18T08:34:05Z) - Local Feature Selection without Label or Feature Leakage for Interpretable Machine Learning Predictions [15.811319240038603]
ラベルと特徴リークの概念を定式化することで、ミスリード選択の問題に対処する。
本稿では,SUWRと呼ばれるリークがないことを示す,最初の局所特徴選択手法を提案する。
実験結果から,SUWRは過度に適合する傾向が低く,最先端の予測性能と高い特徴選択間隔を併せ持つことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-16T14:36:30Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Features of Explainability: How users understand counterfactual and
causal explanations for categorical and continuous features in XAI [10.151828072611428]
対物的説明は、AI決定の解釈可能性、レコメンデーション、バイアスに対処するためにますます使われています。
本研究では,ユーザ予測の客観的精度に対する反事実的・因果的説明の効果を検証した。
また, 利用者は, カテゴリー的特徴を参照する説明を, 連続的特徴を参照する説明よりも容易に理解できることがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:01:09Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Generating Fluent Fact Checking Explanations with Unsupervised
Post-Editing [22.5444107755288]
本稿では,句レベルの編集のみを用いて,支配コメントの教師なし後編集を行う反復編集アルゴリズムを提案する。
本モデルでは, 流動性, 可読性, 非冗長性, 事実チェックのための重要な情報をカバーする説明文を生成する。
論文 参考訳(メタデータ) (2021-12-13T15:31:07Z) - A framework for step-wise explaining how to solve constraint
satisfaction problems [21.96171133035504]
本研究では,人に対する理解が容易な方法で,伝播時に行うことができる推論ステップを説明することの課題について検討する。
そこで我々は, 制約解決者説明可能な機関を提供することを目標とし, 問題解決者への信頼構築に役立てる。
論文 参考訳(メタデータ) (2020-06-11T11:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。