Fugu-MT 論文翻訳(概要): Counterfactually Evaluating Explanations in Recommender Systems

論文の概要: Counterfactually Evaluating Explanations in Recommender Systems

arxiv url: http://arxiv.org/abs/2203.01310v1
Date: Wed, 2 Mar 2022 18:55:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-03 15:26:32.594909
Title: Counterfactually Evaluating Explanations in Recommender Systems
Title（参考訳）: リコメンダシステムにおける説明の因果的評価
Authors: Yuanshun Yao and Chong Wang and Hang Li
Abstract要約: 人間の関与なしに計算できるオフライン評価手法を提案する。従来の手法と比較して,本手法は実際の人間の判断とより相関した評価スコアを得られることを示す。
参考スコア（独自算出の注目度）: 14.938252589829673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern recommender systems face an increasing need to explain their recommendations. Despite considerable progress in this area, evaluating the quality of explanations remains a significant challenge for researchers and practitioners. Prior work mainly conducts human study to evaluate explanation quality, which is usually expensive, time-consuming, and prone to human bias. In this paper, we propose an offline evaluation method that can be computed without human involvement. To evaluate an explanation, our method quantifies its counterfactual impact on the recommendation. To validate the effectiveness of our method, we carry out an online user study. We show that, compared to conventional methods, our method can produce evaluation scores more correlated with the real human judgments, and therefore can serve as a better proxy for human evaluation. In addition, we show that explanations with high evaluation scores are considered better by humans. Our findings highlight the promising direction of using the counterfactual approach as one possible way to evaluate recommendation explanations.
Abstract（参考訳）: 現代のレコメンデーションシステムは、レコメンデーションを説明する必要性が高まっている。この領域でかなりの進歩があったにもかかわらず、説明の質を評価することは研究者や実践者にとって重要な課題である。先行研究は、説明の質を評価するために主に人間の研究を行い、それは通常高価で、時間のかかるものであり、人間のバイアスになりやすい。本稿では,人間の関与なしに計算できるオフライン評価手法を提案する。本手法は,提案手法の推奨に対する効果を定量的に評価する。本手法の有効性を検証するため,オンラインユーザ調査を行った。従来の手法と比較して,本手法は実際の人的判断とより相関する評価スコアを生成できるので,人的評価の指標として有効であることを示す。また,評価スコアの高い説明は,人間による評価が優れていることを示す。本研究は,レコメンデーション説明を評価する一つの方法として,反事実的アプローチを使うことの有望な方向性を浮き彫りにしている。

関連論文リスト

SPHERE: An Evaluation Card for Human-AI Systems [75.0887588648484]
本稿では,5つの重要次元を含む評価カードSPHEREを提案する。我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文参考訳（メタデータ） (2025-03-24T20:17:20Z)
Objective Metrics for Human-Subjects Evaluation in Explainable Reinforcement Learning [0.47355466227925036]
説明は基本的に人間のプロセスである。説明の目的と聴衆を理解することは不可欠である。説明可能な強化学習(XRL)に関する既存の研究は、その評価において人間に日常的に相談しない。本稿では,観察可能な行動と行動可能な行動に基づく説明評価に客観的な人的指標を使用するよう研究者に呼びかける。
論文参考訳（メタデータ） (2025-01-31T16:12:23Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。因果的観点からRSを定式化し、二元的介入として勧告を定式化する。提案手法では,結果の一致を最大化する手法を提案する。
論文参考訳（メタデータ） (2024-08-19T07:21:02Z)
Navigating the Evaluation Funnel to Optimize Iteration Speed for Recommender Systems [0.0]
本稿では,レコメンデーションシステムの評価ファンネルに関する推論を簡略化する新しいフレームワークを提案する。成功の定義を、成功に必要な最小限の基準に分解することで、不要なアイデアを早期に特定できることを示す。偽造ログ、検証、検証、A/Bテスト、インターリーブといった、いわゆるオフラインおよびオンライン評価手法を精査する。
論文参考訳（メタデータ） (2024-04-03T17:15:45Z)
Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文参考訳（メタデータ） (2024-01-30T15:45:30Z)
Towards a Comprehensive Human-Centred Evaluation Framework for Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文参考訳（メタデータ） (2023-07-31T09:20:16Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Learning and Evaluating Human Preferences for Conversational Head Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文参考訳（メタデータ） (2023-07-20T07:04:16Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Doubting AI Predictions: Influence-Driven Second Opinion Recommendation [92.30805227803688]
我々は,補完的な意見を提供する可能性のある専門家を識別する,共通の組織的実践に基づいて,人間とAIのコラボレーションを強化する方法を提案する。提案手法は、一部の専門家がアルゴリズムによる評価に異を唱えるかどうかを特定することによって、生産的な不一致を活用することを目的としている。
論文参考訳（メタデータ） (2022-04-29T20:35:07Z)
Measuring "Why" in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文参考訳（メタデータ） (2022-02-14T02:58:55Z)
On the Interaction of Belief Bias and Explanations [4.211128681972148]
我々は,信念バイアスの概観,人的評価における役割,そしてNLP実践者の考え方について述べる。本研究では,評価における信念バイアスを考慮に入れることの重要性を指摘しながら,このような制御を導入する際に,最高性能の手法に関する結論が変化することを示す。
論文参考訳（メタデータ） (2021-06-29T12:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。