論文の概要: Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13112v2
- Date: Fri, 3 Nov 2023 02:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:08:35.559795
- Title: Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models
- Title(参考訳): 大規模言語モデルにおける会話勧告の評価の再考
- Authors: Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao, Jingyuan Wang, Ji-Rong Wen
- Abstract要約: 近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
- 参考スコア(独自算出の注目度): 115.7508325840751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of large language models (LLMs) has shown great potential
to develop more powerful conversational recommender systems (CRSs), which rely
on natural language conversations to satisfy user needs. In this paper, we
embark on an investigation into the utilization of ChatGPT for conversational
recommendation, revealing the inadequacy of the existing evaluation protocol.
It might over-emphasize the matching with the ground-truth items or utterances
generated by human annotators, while neglecting the interactive nature of being
a capable CRS. To overcome the limitation, we further propose an interactive
Evaluation approach based on LLMs named iEvaLM that harnesses LLM-based user
simulators. Our evaluation approach can simulate various interaction scenarios
between users and systems. Through the experiments on two publicly available
CRS datasets, we demonstrate notable improvements compared to the prevailing
evaluation protocol. Furthermore, we emphasize the evaluation of
explainability, and ChatGPT showcases persuasive explanation generation for its
recommendations. Our study contributes to a deeper comprehension of the
untapped potential of LLMs for CRSs and provides a more flexible and
easy-to-use evaluation framework for future research endeavors. The codes and
data are publicly available at https://github.com/RUCAIBox/iEvaLM-CRS.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の成功は、ユーザニーズを満たすために自然言語の会話に依存する、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,チャットgptの会話推薦における活用について調査を行い,既存の評価プロトコルの不十分性を明らかにする。
これは、人間のアノテータが生み出す地上の真実や発話とのマッチングを過度に強調する一方で、有能なCRSであることのインタラクティブな性質を無視するかもしれない。
この制限を克服するため,LLMをベースとしたユーザシミュレータであるiEvaLMを用いた対話型評価手法を提案する。
評価手法はユーザとシステム間の様々なインタラクションシナリオをシミュレートできる。
利用可能な2つのCRSデータセットの実験を通して、一般的な評価プロトコルと比較して顕著な改善が示された。
さらに,説明可能性の評価を強調し,チャットgptではその推奨事項に対する説得力のある説明生成を提示する。
本研究は,CRSに対するLCMの未解決可能性の深い理解に寄与し,今後の研究課題に対して,より柔軟で使いやすい評価フレームワークを提供する。
コードとデータはhttps://github.com/RUCAIBox/iEvaLM-CRSで公開されている。
関連論文リスト
- A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Parameter-Efficient Conversational Recommender System as a Language
Processing Task [52.47087212618396]
会話レコメンデータシステム(CRS)は,自然言語会話を通じてユーザの嗜好を喚起することで,ユーザに対して関連項目を推薦することを目的としている。
先行作業では、アイテムのセマンティック情報、対話生成のための言語モデル、関連する項目のランク付けのためのレコメンデーションモジュールとして、外部知識グラフを利用することが多い。
本稿では、自然言語の項目を表現し、CRSを自然言語処理タスクとして定式化する。
論文 参考訳(メタデータ) (2024-01-25T14:07:34Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Improving Conversational Recommendation Systems via Counterfactual Data
Simulation [73.4526400381668]
会話推薦システム(CRS)は、自然言語による会話を通じてレコメンデーションサービスを提供することを目的としている。
既存のCRSアプローチは、トレーニングデータの不足により、トレーニングの不十分な問題に悩まされることが多い。
我々は,CRSにおけるデータ不足の問題を緩和するため,CFCRSと呼ばれるCRSに対するCounterFactualデータシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T12:48:56Z) - Leveraging Large Language Models in Conversational Recommender Systems [9.751217336860924]
Conversational Recommender System (CRS)は、リアルタイムのマルチターン対話を通じてシステムと対話できるようにすることにより、ユーザに対して透明性とコントロールを向上する。
大言語モデル(LLM)は、自然に会話し、世界知識と常識推論を言語理解に組み込むという前例のない能力を示した。
論文 参考訳(メタデータ) (2023-05-13T16:40:07Z) - Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender
System [11.404192885921498]
Chat-Recは会話レコメンデーションシステムを構築するための新しいパラダイムである。
Chat-Recは、ユーザの好みを学習し、ユーザと製品間の接続を確立するのに有効である。
実験では、Chat-Recはトップkレコメンデーションの結果を効果的に改善し、ゼロショット評価予測タスクでより良いパフォーマンスを発揮する。
論文 参考訳(メタデータ) (2023-03-25T17:37:43Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。