論文の概要: FACE: A Fine-grained Reference Free Evaluator for Conversational Recommender Systems
- arxiv url: http://arxiv.org/abs/2506.00314v1
- Date: Fri, 30 May 2025 23:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.178894
- Title: FACE: A Fine-grained Reference Free Evaluator for Conversational Recommender Systems
- Title(参考訳): FACE: 対話型レコメンダシステムのためのきめ細かい参照自由評価器
- Authors: Hideaki Joko, Faegheh Hasibi,
- Abstract要約: 本研究は,微細なアスペクトベースの会話評価手法であるFACEを提案する。
これは、レコメンデーション会話の多様なターンレベルおよび対話レベルの品質に対する評価スコアを提供する。
FACEは参照なしであり、人間の判断と強い相関を示す。
- 参考スコア(独自算出の注目度): 4.028503203417233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A systematic, reliable, and low-cost evaluation of Conversational Recommender Systems (CRSs) remains an open challenge. Existing automatic CRS evaluation methods are proven insufficient for evaluating the dynamic nature of recommendation conversations. This work proposes FACE: a Fine-grained, Aspect-based Conversation Evaluation method that provides evaluation scores for diverse turn and dialogue level qualities of recommendation conversations. FACE is reference-free and shows strong correlation with human judgments, achieving system correlation of 0.9 and turn/dialogue-level of 0.5, outperforming state-of-the-art CRS evaluation methods by a large margin. Additionally, unlike existing LLM-based methods that provide single uninterpretable scores, FACE provides insights into the system performance and enables identifying and locating problems within conversations.
- Abstract(参考訳): Conversational Recommender Systems (CRS) の体系的、信頼性が高く、低コストな評価は、依然としてオープンな課題である。
既存のCRS評価手法は、推薦会話の動的性質を評価するには不十分であることが証明されている。
本研究は, 多様なターンレベル, 対話レベル, およびレコメンデーション会話の質を評価するための, 細粒度なアスペクトベースの会話評価手法であるFACEを提案する。
FACEは基準フリーであり、人間の判断と強い相関を示し、システム相関は0.9、ターン/ダイアログレベルは0.5であり、最先端のCRS評価手法よりも大きなマージンで優れている。
さらに、単一の解釈不能なスコアを提供する既存のLCMベースのメソッドとは異なり、FACEはシステムパフォーマンスに関する洞察を提供し、会話内の問題を識別し、特定することを可能にする。
関連論文リスト
- Large Language Models as Evaluators for Conversational Recommender Systems: Benchmarking System Performance from a User-Centric Perspective [38.940283784200005]
本研究では,LCMを用いたCRS自動評価フレームワークを提案する。
これは、人間とコンピュータの相互作用と心理学に関する既存の研究に基づいている。
このフレームワークを用いて、4つの異なる対話レコメンデーションシステムを評価する。
論文 参考訳(メタデータ) (2025-01-16T12:06:56Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - INFACT: An Online Human Evaluation Framework for Conversational
Recommendation [5.837881923712394]
会話推薦システム(英: Conversational recommender system, CRS)は、マルチターン会話を通じてユーザのレコメンデーション関連目標を支援する対話型エージェントである。
機械学習に基づくCRSモデルに関する最近の研究は、評価プロセスにおける人間の重要性を認識している。
論文 参考訳(メタデータ) (2022-09-07T15:16:59Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。