論文の概要: Designing User-Centric Metrics for Evaluation of Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2507.15162v1
- Date: Sun, 20 Jul 2025 23:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.221998
- Title: Designing User-Centric Metrics for Evaluation of Counterfactual Explanations
- Title(参考訳): 対実的説明評価のためのユーザ中心メトリクスの設計
- Authors: Firdaus Ahmed Choudhury, Ethan Leicht, Jude Ethan Bislig, Hangzhi Guo, Amulya Yadav,
- Abstract要約: 機械学習に基づく意思決定モデルは、人々の生活に大きな影響を与える決定を行うために、ますます使われています。
実用的なガイダンスを提供する手段として、CFE(Counterfactual Explanations)が人気を博している。
CFEの以前の研究のほとんどは、近接性のような人工的な評価指標に依存していた。
- 参考スコア(独自算出の注目度): 11.141332955298562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning-based decision models are increasingly being used to make decisions that significantly impact people's lives, but their opaque nature leaves end users without a clear understanding of why a decision was made. Counterfactual Explanations (CFEs) have grown in popularity as a means of offering actionable guidance by identifying the minimum changes in feature values required to flip a model's prediction to something more desirable. Unfortunately, most prior research in CFEs relies on artificial evaluation metrics, such as proximity, which may overlook end-user preferences and constraints, e.g., the user's perception of effort needed to make certain feature changes may differ from that of the model designer. To address this research gap, this paper makes three novel contributions. First, we conduct a pilot study with 20 crowd-workers on Amazon MTurk to experimentally validate the alignment of existing CF evaluation metrics with real-world user preferences. Results show that user-preferred CFEs matched those based on proximity in only 63.81% of cases, highlighting the limited applicability of these metrics in real-world settings. Second, inspired by the need to design a user-informed evaluation metric for CFEs, we conduct a more detailed two-day user study with 41 participants facing realistic credit application scenarios to find experimental support for or against three intuitive hypotheses that may explain how end users evaluate CFEs. Third, based on the findings of this second study, we propose the AWP model, a novel user-centric, two-stage model that describes one possible mechanism by which users evaluate and select CFEs. Our results show that AWP predicts user-preferred CFEs with 84.37% accuracy. Our study provides the first human-centered validation for personalized cost models in CFE generation and highlights the need for adaptive, user-centered evaluation metrics.
- Abstract(参考訳): マシンラーニングベースの意思決定モデルは、人々の生活に重大な影響を与える決定を行うために、ますます使われていますが、その不透明な性質は、決定が下された理由を明確に理解せずに、エンドユーザーを残します。
モデルの予測をもっと望ましいものに戻すのに必要な特徴値の最小限の変化を特定することによって、実用的なガイダンスを提供する手段として、CFE(Counterfactual Explanations)が人気を博している。
残念なことに、CFEにおけるこれまでのほとんどの研究は、エンドユーザの好みや制約を見落としてしまうような近接性などの人工的な評価指標に依存している。
この研究ギャップに対処するために,本論文は3つの新しい貢献を行う。
まず,Amazon MTurkのクラウドワーカー20名を対象に,既存のCF評価指標と実世界のユーザの嗜好との整合性を実験的に検証した。
その結果、ユーザ優先のCFEは63.81%のケースで近接した値と一致し、実際の設定でこれらのメトリクスの適用性に制限があることが明らかになった。
第2に、CFEのユーザインフォームド評価尺度の設計の必要性に触発されて、41人の参加者が現実的な信用アプリケーションシナリオに直面した2日間の詳細なユーザスタディを行い、エンドユーザーがCFEをどのように評価するかを説明する3つの直感的な仮説を実験的に支援した。
第3に,本研究の結果をもとに,ユーザがCFEを評価・選択する1つのメカニズムを記述した,ユーザ中心の新たな2段階モデルであるAWPモデルを提案する。
AWPは84.37%の精度でユーザの選好CFEを予測する。
我々の研究は、CFE世代におけるパーソナライズされたコストモデルのための人間中心のバリデーションを初めて提供し、適応型ユーザ中心評価メトリクスの必要性を強調した。
関連論文リスト
- When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning [23.557084253364174]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、一般的に、多様な人間の価値観や少数派視点を見越して、ユーザ間で均質な好みを仮定する。
本稿では,多面的評価フレームワークを提案する。このフレームワークは,性能だけでなく,不公平性,意図しない効果,適応性など,様々なレベルの嗜好のばらつきを計測する。
これらの知見は、より効果的で包括的な選好学習システムの開発を進めるための全体論的評価アプローチの批判的必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-26T14:14:58Z) - Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。
UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。
UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文 参考訳(メタデータ) (2024-02-26T20:09:44Z) - Debiasing Recommendation by Learning Identifiable Latent Confounders [49.16119112336605]
コンバウンディングバイアスは、ユーザの露出とフィードバックの両方に影響を与える未測定変数の存在によって生じる。
既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。
本稿では、上記の非識別問題の解決にプロキシ変数の集合を利用する新しい方法、すなわち、識別可能なデコノウ(iDCF)を提案する。
論文 参考訳(メタデータ) (2023-02-10T05:10:26Z) - Justification of Recommender Systems Results: A Service-based Approach [4.640835690336653]
本稿では,サービスモデルを用いて商品とのインタラクションのすべての段階に関するレビューから経験データを抽出する,新たな正当化手法を提案する。
ユーザスタディでは,提案手法を,推奨システムの結果の正当性を反映したベースラインと比較した。
我々のモデルは、好奇心のレベルが異なるユーザや、認知の必要度(NfC)の低いユーザによって、より高いインタフェース適合度と満足度の評価を受けた。
これらの知見は、推薦システムの結果を正当化するためのサービスモデルの導入を奨励するが、多様なインタラクションニーズに適合するパーソナライズ戦略の調査を推奨する。
論文 参考訳(メタデータ) (2022-11-07T11:08:19Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Keep Your Friends Close and Your Counterfactuals Closer: Improved
Learning From Closest Rather Than Plausible Counterfactual Explanations in an
Abstract Setting [6.883906273999368]
対実的説明(CFE)は、モデル入力の変更が特定の方法でその予測を変更したことを強調している。
近年の革新は、自動生成されたCFEに対する計算可能性の概念を導入している。
初級ユーザを対象とした反復学習設計において,計算可能なCFEの客観的および主観的ユーザビリティを評価する。
論文 参考訳(メタデータ) (2022-05-11T14:07:57Z) - Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。
本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文 参考訳(メタデータ) (2021-11-01T19:49:35Z) - New Metrics to Evaluate the Performance and Fairness of Personalized
Federated Learning [5.500172106704342]
フェデレートラーニング(FL)では、クライアントは中央アグリゲータを通じて単一のグローバルモデル(FedAvg)を学ぶ。
この設定では、クライアント間でのデータの非IID分布は、グローバルFLモデルが各クライアントのローカルデータに良いパフォーマンスを提供することを制限する。
パーソナライズされたFLは、各クライアントのパーソナライズされたモデルを見つけることで、この問題に対処することを目指している。
論文 参考訳(メタデータ) (2021-07-28T05:30:17Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Towards Open-World Recommendation: An Inductive Model-based
Collaborative Filtering Approach [115.76667128325361]
推奨モデルは、基礎となるユーザの関心を効果的に見積もり、将来の行動を予測することができる。
2つの表現モデルを含む帰納的協調フィルタリングフレームワークを提案する。
本モデルでは,限られたトレーニングレーティングと新規の未確認ユーザを対象に,数ショットのユーザに対して有望なレコメンデーションを行う。
論文 参考訳(メタデータ) (2020-07-09T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。