論文の概要: Evaluating Conversational Recommender Systems with Large Language Models: A User-Centric Evaluation Framework
- arxiv url: http://arxiv.org/abs/2501.09493v1
- Date: Thu, 16 Jan 2025 12:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:08:40.970569
- Title: Evaluating Conversational Recommender Systems with Large Language Models: A User-Centric Evaluation Framework
- Title(参考訳): 大規模言語モデルを用いた対話型レコメンダシステムの評価:ユーザ中心評価フレームワーク
- Authors: Nuo Chen, Quanyu Dai, Xiaoyu Dong, Xiao-Ming Wu, Zhenhua Dong,
- Abstract要約: 本研究では,LCMを用いたCRS自動評価フレームワークを提案する。
これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。
このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
- 参考スコア(独自算出の注目度): 38.940283784200005
- License:
- Abstract: Conversational recommender systems (CRS) involve both recommendation and dialogue tasks, which makes their evaluation a unique challenge. Although past research has analyzed various factors that may affect user satisfaction with CRS interactions from the perspective of user studies, few evaluation metrics for CRS have been proposed. Recent studies have shown that LLMs can align with human preferences, and several LLM-based text quality evaluation measures have been introduced. However, the application of LLMs in CRS evaluation remains relatively limited. To address this research gap and advance the development of user-centric conversational recommender systems, this study proposes an automated LLM-based CRS evaluation framework, building upon existing research in human-computer interaction and psychology. The framework evaluates CRS from four dimensions: dialogue behavior, language expression, recommendation items, and response content. We use this framework to evaluate four different conversational recommender systems.
- Abstract(参考訳): 会話推薦システム(CRS)はレコメンデーションタスクと対話タスクの両方を伴い、その評価がユニークな課題となる。
過去の研究は、ユーザスタディの観点から、CRSの相互作用に対するユーザの満足度に影響を与える様々な要因を分析してきたが、CRSの評価基準はほとんど提案されていない。
近年の研究では、LLMは人間の好みに合わせることができ、LLMベースのテキスト品質評価手法がいくつか導入されている。
しかし,CRS評価におけるLSMの適用は比較的限られている。
この研究ギャップに対処し、ユーザ中心の会話レコメンデーションシステムの開発を進めるために、人間とコンピュータのインタラクションと心理学における既存の研究を基盤として、LCMに基づくCRS自動評価フレームワークを提案する。
このフレームワークは,対話行動,言語表現,レコメンデーション項目,応答内容の4次元からCRSを評価する。
このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
関連論文リスト
- Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommender Systems [1.652907918484303]
大言語モデル (LLM) は対話型レコメンダシステム (CRS) において大きな可能性を証明している。
LLMは、しばしば柔軟で受動的に見え、十分な調査なしに推奨タスクを完了するために急いでいる。
この振る舞いの不一致は、推奨の精度を低下させ、ユーザの満足度を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-04-17T21:56:27Z) - Concept -- An Evaluation Protocol on Conversational Recommender Systems with System-centric and User-centric Factors [68.68418801681965]
本稿では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。
まず、現在のCRSモデルの長所と短所を概観する。
第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供する。
論文 参考訳(メタデータ) (2024-04-04T08:56:48Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - A Conversation is Worth A Thousand Recommendations: A Survey of Holistic
Conversational Recommender Systems [54.78815548652424]
会話レコメンデータシステムは対話的なプロセスを通じてレコメンデーションを生成する。
すべてのCRSアプローチが、インタラクションデータのソースとして人間の会話を使用するわけではない。
全体論的CRSは、現実世界のシナリオから収集された会話データを使って訓練される。
論文 参考訳(メタデータ) (2023-09-14T12:55:23Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - INFACT: An Online Human Evaluation Framework for Conversational
Recommendation [5.837881923712394]
会話推薦システム(英: Conversational recommender system, CRS)は、マルチターン会話を通じてユーザのレコメンデーション関連目標を支援する対話型エージェントである。
機械学習に基づくCRSモデルに関する最近の研究は、評価プロセスにおける人間の重要性を認識している。
論文 参考訳(メタデータ) (2022-09-07T15:16:59Z) - MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for
Evaluating Open-Domain Dialogue [15.31433922183745]
オープンドメイン対話の評価のための相関再スケーリング(MME-CRS)に基づくマルチメトリック評価を提案する。
MME-CRSはDSTC10トラック5サブタスクの最終テストデータで第1位である。
論文 参考訳(メタデータ) (2022-06-19T13:43:59Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Deep Conversational Recommender Systems: A New Frontier for
Goal-Oriented Dialogue Systems [54.06971074217952]
Conversational Recommender System (CRS)は対話型対話を通じてユーザの好みを学習し、モデル化する。
ディープラーニングアプローチはCRSに適用され、実りある結果を生み出した。
論文 参考訳(メタデータ) (2020-04-28T02:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。