論文の概要: From Top-1 to Top-K: A Reproducibility Study and Benchmarking of Counterfactual Explanations for Recommender Systems
- arxiv url: http://arxiv.org/abs/2604.19663v1
- Date: Tue, 21 Apr 2026 16:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.879938
- Title: From Top-1 to Top-K: A Reproducibility Study and Benchmarking of Counterfactual Explanations for Recommender Systems
- Title(参考訳): Top-1からTop-K:Reproducibility Study and Benchmarking of Counterfactual Explanations for Recommender Systems
- Authors: Quang-Huy Nguyen, Thanh-Hai Nguyen, Khac-Manh Thai, Duc-Hoang Pham, Huy-Son Nguyen, Cam-Van Thi Nguyen, Masoud Mansoury, Duc-Trong Le, Hoang-Quynh Le,
- Abstract要約: 対実的説明(CE)は、レコメンダシステムを理解する直感的な方法を提供する。
既存のレコメンデータシステムのためのCEメソッドは、異なるデータセット、レコメンデータ、メトリクス、説明形式を用いて評価されている。
本稿では,レコメンデータシステムのための11の最先端CE手法を体系的に再現し,再評価し,再実装する。
- 参考スコア(独自算出の注目度): 3.5498952876443917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations (CEs) provide an intuitive way to understand recommender systems by identifying minimal modifications to user-item interactions that alter recommendation outcomes. Existing CE methods for recommender systems, however, have been evaluated under heterogeneous protocols, using different datasets, recommenders, metrics, and even explanation formats, which hampers reproducibility and fair comparison. Our paper systematically reproduces, re-implement, and re-evaluate eleven state-of-the-art CE methods for recommender systems, covering both native explainers (e.g., LIME-RS, SHAP, PRINCE, ACCENT, LXR, GREASE) and specific graph-based explainers originally proposed for GNNs. Here, a unified benchmarking framework is proposed to assess explainers along three dimensions: explanation format (implicit vs. explicit), evaluation level (item-level vs. list-level), and perturbation scope (user interaction vectors vs. user-item interaction graphs). Our evaluation protocol includes effectiveness, sparsity, and computational complexity metrics, and extends existing item-level assessments to top-K list-level explanations. Through extensive experiments on three real-world datasets and six representative recommender models, we analyze how well previously reported strengths of CE methods generalize across diverse setups. We observe that the trade-off between effectiveness and sparsity depends strongly on the specific method and evaluation setting, particularly under the explicit format; in addition, explainer performance remains largely consistent across item level and list level evaluations, and several graph-based explainers exhibit notable scalability limitations on large recommender graphs. Our results refine and challenge earlier conclusions about the robustness and practicality of CE generation methods in recommender systems: https://github.com/L2R-UET/CFExpRec.
- Abstract(参考訳): 対実的説明(CE)は、リコメンデーション結果を変更するユーザとイテムのインタラクションに対する最小限の変更を識別することで、リコメンデーションシステムを理解するための直感的な方法を提供する。
しかし、リコメンデータシステムのための既存のCEメソッドは、異なるデータセット、レコメンデータ、メトリクス、さらには説明形式を使って、異種プロトコルで評価され、再現性と公正な比較を妨げている。
提案手法は,従来のGNNに提案されていたネイティブな説明文(例えば,LIME-RS,SHAP,PRINCE,ACCENT,LXR,GREASE)とグラフベースの説明文の両方を網羅し,提案手法を体系的に再現し,再実装し,再評価する。
ここでは、説明形式(単純か明示か)、評価レベル(テムレベルかリストレベルか)、摂動範囲(ユーザインタラクションベクトルかユーザインタラクショングラフか)の3つの側面に沿って説明者を評価するために、統一的なベンチマークフレームワークを提案する。
評価プロトコルには、有効性、疎度、計算複雑性のメトリクスが含まれており、既存の項目レベルの評価をトップKリストレベルの説明にまで拡張している。
実世界の3つのデータセットと6つの代表的なレコメンデーションモデルに関する広範な実験を通じて、CE手法の強みが様々な設定でどのように一般化されているかを分析した。
有効性と疎性の間のトレードオフは,特に明示的なフォーマット下では,特定の手法と評価設定に強く依存している。さらに,項目レベルとリストレベルの評価において,説明者のパフォーマンスは相変わらず一定であり,グラフベースの説明者の中には,大きな推奨グラフに顕著なスケーラビリティの限界を示す者もいる。
本研究の結果は, 推薦システムにおけるCE生成手法の堅牢性と実用性について, 先程の結論に挑戦するものである。
関連論文リスト
- Curr-RLCER:Curriculum Reinforcement Learning For Coherence Explainable Recommendation [5.971765441013208]
Curr-RLCERは、動的レーティングアライメントを伴うコヒーレントなリコメンデーションのための強化学習フレームワークである。
カリキュラム学習を採用し、基本的な予測からオープンな推奨説明生成へと移行している。
3つの推奨データセットに関する実験結果から,提案手法が有効であることが示唆された。
論文 参考訳(メタデータ) (2026-04-07T02:25:36Z) - RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines [0.7373617024876725]
RAGXplainは、RAGのパフォーマンスを定量化し、これらの評価を明確な洞察に変換する評価フレームワークである。
したがって、RAGXplainは定量的評価と実用的な最適化を橋渡しし、ユーザーがAIシステムを理解し、信頼し、拡張することを可能にする。
論文 参考訳(メタデータ) (2025-05-18T17:25:34Z) - Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - MVIGER: Multi-View Variational Integration of Complementary Knowledge for Generative Recommender [23.305659180882625]
本稿では,入力プロンプトテンプレートや項目インデックスタイプの変化によって生成される出力の不整合に着目した。
本稿では,これらの情報ソースの選択を,事前学習可能なカテゴリ付き潜在変数としてモデル化する,統一的な変分フレームワークMVIGERを提案する。
実世界の3つのデータセットに対するMVIGERの有効性を検証する。
論文 参考訳(メタデータ) (2024-08-16T11:59:01Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ITEM(Iterative utiliTy judgm fraEntMework)を提案する。
RAGの3つの中核的構成要素は、検索モデル、ユーティリティ判断、回答生成から導かれる関連性ランキングであり、シューツの哲学的関連性体系と一致している。
実効性判定, ランキング, 回答生成におけるITEMの顕著な改善が, 代表ベースラインに基づいて示された。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。