Fugu-MT 論文翻訳(概要): Evaluating Conversational Recommender Systems with Large Language Models: A User-Centric Evaluation Framework

論文の概要: Evaluating Conversational Recommender Systems with Large Language Models: A User-Centric Evaluation Framework

arxiv url: http://arxiv.org/abs/2501.09493v1
Date: Thu, 16 Jan 2025 12:06:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.388622
Title: Evaluating Conversational Recommender Systems with Large Language Models: A User-Centric Evaluation Framework
Title（参考訳）: 大規模言語モデルを用いた対話型レコメンダシステムの評価:ユーザ中心評価フレームワーク
Authors: Nuo Chen, Quanyu Dai, Xiaoyu Dong, Xiao-Ming Wu, Zhenhua Dong,
Abstract要約: 本研究では,LCMを用いたCRS自動評価フレームワークを提案する。これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
参考スコア（独自算出の注目度）: 38.940283784200005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversational recommender systems (CRS) involve both recommendation and dialogue tasks, which makes their evaluation a unique challenge. Although past research has analyzed various factors that may affect user satisfaction with CRS interactions from the perspective of user studies, few evaluation metrics for CRS have been proposed. Recent studies have shown that LLMs can align with human preferences, and several LLM-based text quality evaluation measures have been introduced. However, the application of LLMs in CRS evaluation remains relatively limited. To address this research gap and advance the development of user-centric conversational recommender systems, this study proposes an automated LLM-based CRS evaluation framework, building upon existing research in human-computer interaction and psychology. The framework evaluates CRS from four dimensions: dialogue behavior, language expression, recommendation items, and response content. We use this framework to evaluate four different conversational recommender systems.
Abstract（参考訳）: 会話推薦システム(CRS)はレコメンデーションタスクと対話タスクの両方を伴い、その評価がユニークな課題となる。過去の研究は、ユーザスタディの観点から、CRSの相互作用に対するユーザの満足度に影響を与える様々な要因を分析してきたが、CRSの評価基準はほとんど提案されていない。近年の研究では、LLMは人間の好みに合わせることができ、LLMベースのテキスト品質評価手法がいくつか導入されている。しかし,CRS評価におけるLSMの適用は比較的限られている。この研究ギャップに対処し、ユーザ中心の会話レコメンデーションシステムの開発を進めるために、人間とコンピュータのインタラクションと心理学における既存の研究を基盤として、LCMに基づくCRS自動評価フレームワークを提案する。このフレームワークは,対話行動,言語表現,レコメンデーション項目,応答内容の4次元からCRSを評価する。このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。

関連論文リスト

Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges [22.7340872046127]
選好知識を1つのモデルに集約することで,複数のLLM審査員の集合的知恵を捉える,効率的なマルチターン対話評価器を提案する。評価コストを大幅に削減しつつ,多様なマルチジャッジフィードバックの利点を保ちながら,高速かつ柔軟な対話品質評価を実現している。
論文参考訳（メタデータ） (2025-08-01T09:26:01Z)
FACE: A Fine-grained Reference Free Evaluator for Conversational Recommender Systems [4.028503203417233]
本研究は,微細なアスペクトベースの会話評価手法であるFACEを提案する。これは、レコメンデーション会話の多様なターンレベルおよび対話レベルの品質に対する評価スコアを提供する。 FACEは参照なしであり、人間の判断と強い相関を示す。
論文参考訳（メタデータ） (2025-05-30T23:54:13Z)
Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文参考訳（メタデータ） (2025-04-09T13:21:17Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
Graph Retrieval-Augmented LLM for Conversational Recommendation Systems [52.35491420330534]
G-CRS(Graph Retrieval-Augmented Large Language Model for Conversational Recommender Systems)は、グラフ検索強化世代とテキスト内学習を組み合わせた学習自由フレームワークである。 G-CRSは、タスク固有のトレーニングを必要とせず、既存の手法よりも優れたレコメンデーション性能を達成する。
論文参考訳（メタデータ） (2025-03-09T03:56:22Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。因果的観点からRSを定式化し、二元的介入として勧告を定式化する。提案手法では,結果の一致を最大化する手法を提案する。
論文参考訳（メタデータ） (2024-08-19T07:21:02Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommender Systems [1.652907918484303]
大言語モデル (LLM) は対話型レコメンダシステム (CRS) において大きな可能性を証明している。 LLMは、しばしば柔軟で受動的に見え、十分な調査なしに推奨タスクを完了するために急いでいる。この振る舞いの不一致は、推奨の精度を低下させ、ユーザの満足度を低下させる可能性がある。
論文参考訳（メタデータ） (2024-04-17T21:56:27Z)
Concept -- An Evaluation Protocol on Conversational Recommender Systems with System-centric and User-centric Factors [68.68418801681965]
本稿では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。まず、現在のCRSモデルの長所と短所を概観する。第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供する。
論文参考訳（メタデータ） (2024-04-04T08:56:48Z)
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文参考訳（メタデータ） (2023-12-24T04:50:57Z)
Exploring the Impact of Human Evaluator Group on Chat-Oriented Dialogue Evaluation [13.651502777079237]
本稿では、4つの異なる評価器群を用いた4つの最先端対話システムをテストすることによって、評価器群が対話システム評価に与える影響を解析する。分析の結果,Pairwiseでは見られなかったLikert評価群に対する評価群に対するロバスト性が明らかとなった。
論文参考訳（メタデータ） (2023-09-14T19:19:50Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
INFACT: An Online Human Evaluation Framework for Conversational Recommendation [5.837881923712394]
会話推薦システム(英: Conversational recommender system, CRS)は、マルチターン会話を通じてユーザのレコメンデーション関連目標を支援する対話型エージェントである。機械学習に基づくCRSモデルに関する最近の研究は、評価プロセスにおける人間の重要性を認識している。
論文参考訳（メタデータ） (2022-09-07T15:16:59Z)
Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文参考訳（メタデータ） (2020-05-15T05:20:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。