論文の概要: Evaluating Conversational Recommender Systems via Large Language Models: A User-Centric Framework
- arxiv url: http://arxiv.org/abs/2501.09493v3
- Date: Mon, 21 Jul 2025 10:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.829768
- Title: Evaluating Conversational Recommender Systems via Large Language Models: A User-Centric Framework
- Title(参考訳): 大規模言語モデルによる会話レコメンダシステムの評価:ユーザ中心フレームワーク
- Authors: Nuo Chen, Quanyu Dai, Xiaoyu Dong, Piaohong Wang, Qinglin Jia, Zhaocheng Du, Zhenhua Dong, Xiao-Ming Wu,
- Abstract要約: 会話レコメンデーションシステム(CRS)は、レコメンデーションと対話タスクを統合している。
既存のアプローチは主にルールベースのメトリクスを用いて項目推薦と対話管理を別々に評価することでCRSのパフォーマンスを評価する。
我々は,CRS(Conversational Recommendation Evaluator (CoRE))のための大規模言語モデル(LLM)に基づくユーザ中心評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.20623751587154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational recommender systems (CRSs) integrate both recommendation and dialogue tasks, making their evaluation uniquely challenging. Existing approaches primarily assess CRS performance by separately evaluating item recommendation and dialogue management using rule-based metrics. However, these methods fail to capture the real human experience, and they cannot draw direct conclusions about the system's overall performance. As conversational recommender systems become increasingly vital in e-commerce, social media, and customer support, the ability to evaluate both recommendation accuracy and dialogue management quality using a single metric, thereby authentically reflecting user experience, has become the principal challenge impeding progress in this field. In this work, we propose a user-centric evaluation framework based on large language models (LLMs) for CRSs, namely Conversational Recommendation Evaluator (CoRE). CoRE consists of two main components: (1) LLM-As-Evaluator. Firstly, we comprehensively summarize 12 key factors influencing user experience in CRSs and directly leverage LLM as an evaluator to assign a score to each factor. (2) Multi-Agent Debater. Secondly, we design a multi-agent debate framework with four distinct roles (common user, domain expert, linguist, and HCI expert) to discuss and synthesize the 12 evaluation factors into a unified overall performance score. Furthermore, we apply the proposed framework to evaluate four CRSs on two benchmark datasets. The experimental results show that CoRE aligns well with human evaluation in most of the 12 factors and the overall assessment. Especially, CoRE's overall evaluation scores demonstrate significantly better alignment with human feedback compared to existing rule-based metrics.
- Abstract(参考訳): 会話推薦システム(CRS)はレコメンデーションと対話タスクを統合し、その評価を独特に困難にする。
既存のアプローチは主にルールベースのメトリクスを用いて項目推薦と対話管理を別々に評価することでCRSのパフォーマンスを評価する。
しかし、これらの手法は実際の人間の経験を捉えることができず、システム全体の性能に関する直接的な結論を導き出すことはできない。
電子商取引、ソーシャルメディア、カスタマーサポートにおいて、会話レコメンデータシステムがますます重要になっている中、単一のメトリクスを用いてレコメンデーション精度と対話管理品質を評価できる能力は、ユーザー体験を忠実に反映し、この分野の進歩を妨げる主要な課題となっている。
本研究では,CRS(Conversational Recommendation Evaluator)のための大規模言語モデル(LLM)に基づくユーザ中心評価フレームワークを提案する。
CoREは、(1) LLM-As-Evaluatorの2つの主要コンポーネントから構成される。
まず、CRSのユーザエクスペリエンスに影響を与える12の要因を総合的に要約し、LCMを評価指標として直接活用して各因子にスコアを割り当てる。
2)マルチエージェントデバタ。
第2に,4つの異なる役割(共通ユーザ,ドメインエキスパート,言語学者,HCIエキスパート)を持つマルチエージェントの議論フレームワークを設計し,12つの評価因子を総合的なパフォーマンススコアとして議論し,合成する。
さらに,提案手法を2つのベンチマークデータセット上での4つのCRS評価に適用した。
実験の結果,CREは12因子のほとんどと総合的な評価において,ヒトの評価とよく一致していることがわかった。
特に、CoREの全体的な評価スコアは、既存のルールベースのメトリクスと比較して、人間のフィードバックとの整合性が著しく向上している。
関連論文リスト
- Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges [22.7340872046127]
選好知識を1つのモデルに集約することで,複数のLLM審査員の集合的知恵を捉える,効率的なマルチターン対話評価器を提案する。
評価コストを大幅に削減しつつ,多様なマルチジャッジフィードバックの利点を保ちながら,高速かつ柔軟な対話品質評価を実現している。
論文 参考訳(メタデータ) (2025-08-01T09:26:01Z) - FACE: A Fine-grained Reference Free Evaluator for Conversational Recommender Systems [4.028503203417233]
本研究は,微細なアスペクトベースの会話評価手法であるFACEを提案する。
これは、レコメンデーション会話の多様なターンレベルおよび対話レベルの品質に対する評価スコアを提供する。
FACEは参照なしであり、人間の判断と強い相関を示す。
論文 参考訳(メタデータ) (2025-05-30T23:54:13Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Graph Retrieval-Augmented LLM for Conversational Recommendation Systems [52.35491420330534]
G-CRS(Graph Retrieval-Augmented Large Language Model for Conversational Recommender Systems)は、グラフ検索強化世代とテキスト内学習を組み合わせた学習自由フレームワークである。
G-CRSは、タスク固有のトレーニングを必要とせず、既存の手法よりも優れたレコメンデーション性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T03:56:22Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommender Systems [1.652907918484303]
大言語モデル (LLM) は対話型レコメンダシステム (CRS) において大きな可能性を証明している。
LLMは、しばしば柔軟で受動的に見え、十分な調査なしに推奨タスクを完了するために急いでいる。
この振る舞いの不一致は、推奨の精度を低下させ、ユーザの満足度を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-04-17T21:56:27Z) - Concept -- An Evaluation Protocol on Conversational Recommender Systems with System-centric and User-centric Factors [68.68418801681965]
本稿では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。
まず、現在のCRSモデルの長所と短所を概観する。
第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供する。
論文 参考訳(メタデータ) (2024-04-04T08:56:48Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue
Evaluation [13.651502777079237]
本稿では、4つの異なる評価器群を用いた4つの最先端対話システムをテストすることによって、評価器群が対話システム評価に与える影響を解析する。
分析の結果,Pairwiseでは見られなかったLikert評価群に対する評価群に対するロバスト性が明らかとなった。
論文 参考訳(メタデータ) (2023-09-14T19:19:50Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - INFACT: An Online Human Evaluation Framework for Conversational
Recommendation [5.837881923712394]
会話推薦システム(英: Conversational recommender system, CRS)は、マルチターン会話を通じてユーザのレコメンデーション関連目標を支援する対話型エージェントである。
機械学習に基づくCRSモデルに関する最近の研究は、評価プロセスにおける人間の重要性を認識している。
論文 参考訳(メタデータ) (2022-09-07T15:16:59Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。