論文の概要: Evaluating User Experience in Conversational Recommender Systems: A Systematic Review Across Classical and LLM-Powered Approaches
- arxiv url: http://arxiv.org/abs/2508.02096v2
- Date: Wed, 06 Aug 2025 07:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.376439
- Title: Evaluating User Experience in Conversational Recommender Systems: A Systematic Review Across Classical and LLM-Powered Approaches
- Title(参考訳): 対話型レコメンダシステムにおけるユーザエクスペリエンスの評価:古典的およびLLMによるアプローチの体系的レビュー
- Authors: Raj Mahmud, Yufeng Wu, Abdullah Bin Sawad, Shlomo Berkovsky, Mukesh Prasad, A. Baki Kocaballi,
- Abstract要約: 会話型レコメンダシステム (CRS) は, ドメイン間で研究の関心が高まりつつあるが, ユーザエクスペリエンス (UX) の評価は限られている。
既存のレビューは、特に適応型および大規模言語モデル(LLM)ベースのCRSにおいて、経験的UX研究を概ね見落としている。
以上の結果から, ポストホック調査が支配的であり, ターンレベルの情緒的UX構成はめったに評価されず, 適応行動はUX結果にはほとんど関連しないことが明らかとなった。
これらの知見は、より透明でエンゲージメントがあり、ユーザ中心のCRS評価プラクティスの開発を支援する。
- 参考スコア(独自算出の注目度): 7.7954246703720935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational Recommender Systems (CRSs) are receiving growing research attention across domains, yet their user experience (UX) evaluation remains limited. Existing reviews largely overlook empirical UX studies, particularly in adaptive and large language model (LLM)-based CRSs. To address this gap, we conducted a systematic review following PRISMA guidelines, synthesising 23 empirical studies published between 2017 and 2025. We analysed how UX has been conceptualised, measured, and shaped by domain, adaptivity, and LLM. Our findings reveal persistent limitations: post hoc surveys dominate, turn-level affective UX constructs are rarely assessed, and adaptive behaviours are seldom linked to UX outcomes. LLM-based CRSs introduce further challenges, including epistemic opacity and verbosity, yet evaluations infrequently address these issues. We contribute a structured synthesis of UX metrics, a comparative analysis of adaptive and nonadaptive systems, and a forward-looking agenda for LLM-aware UX evaluation. These findings support the development of more transparent, engaging, and user-centred CRS evaluation practices.
- Abstract(参考訳): 会話型レコメンダシステム (CRS) は, ドメイン間で研究の関心が高まりつつあるが, ユーザエクスペリエンス (UX) の評価は限られている。
既存のレビューは、特に適応型および大規模言語モデル(LLM)ベースのCRSにおいて、経験的UX研究を概ね見落としている。
このギャップに対処するため、2017年から2025年の間に23の実証研究を合成し、PRISMAガイドラインに従って体系的なレビューを行った。
UXがドメイン、適応性、LLMによってどのように概念化され、測定され、形成されているかを分析しました。
調査後,ターンレベルの情緒的UX構成はめったに評価されず,適応的行動はUXの結果にはほとんど関連しない。
LLMをベースとしたCRSは、先天的不透明感や冗長性など、さらなる課題を導入しているが、これらの問題に頻繁に対処する評価は少ない。
我々は、UXメトリクスの構造的合成、適応型および非適応型システムの比較分析、LLM対応UX評価の先進的な課題に貢献する。
これらの知見は、より透明でエンゲージメントがあり、ユーザ中心のCRS評価プラクティスの開発を支援する。
関連論文リスト
- A Literature Review on Simulation in Conversational Recommender Systems [19.308825521235605]
Conversational Recommender Systems (CRS) は、マルチターン対話を通じてパーソナライズされたレコメンデーションを提供する新しいアプローチとして注目されている。
このレビューは、関連する出版物をデータセット構築、アルゴリズム設計、システム評価、実証研究の4つのグループに分類する分類学の枠組みを開発した。
解析の結果,シミュレーション手法がCRSの主な課題に対処する上で重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-25T09:53:35Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines [0.7373617024876725]
RAGXplainは、RAGのパフォーマンスを定量化し、これらの評価を明確な洞察に変換する評価フレームワークである。
したがって、RAGXplainは定量的評価と実用的な最適化を橋渡しし、ユーザーがAIシステムを理解し、信頼し、拡張することを可能にする。
論文 参考訳(メタデータ) (2025-05-18T17:25:34Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Evaluating Conversational Recommender Systems via Large Language Models: A User-Centric Framework [35.20623751587154]
会話レコメンデーションシステム(CRS)は、レコメンデーションと対話タスクを統合している。
既存のアプローチは主にルールベースのメトリクスを用いて項目推薦と対話管理を別々に評価することでCRSのパフォーマンスを評価する。
我々は,CRS(Conversational Recommendation Evaluator (CoRE))のための大規模言語モデル(LLM)に基づくユーザ中心評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-16T12:06:56Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommender Systems [1.652907918484303]
大言語モデル (LLM) は対話型レコメンダシステム (CRS) において大きな可能性を証明している。
LLMは、しばしば柔軟で受動的に見え、十分な調査なしに推奨タスクを完了するために急いでいる。
この振る舞いの不一致は、推奨の精度を低下させ、ユーザの満足度を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-04-17T21:56:27Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - CFaiRLLM: Consumer Fairness Evaluation in Large-Language Model Recommender System [16.84754752395103]
本研究は,Large Language Model (LLM) ベースのレコメンデータシステムにおける公平性評価に関する過去の研究に批判的な立場を取る。
CFaiRLLMは、真の嗜好アライメントを組み込むだけでなく、交叉フェアネスを厳格に検証する拡張評価フレームワークである。
CFaiRLLMの有効性を検証するため,MovieLensとLastFMを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-08T20:44:59Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。