論文の概要: Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User
- arxiv url: http://arxiv.org/abs/2504.20458v1
- Date: Tue, 29 Apr 2025 06:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.773886
- Title: Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User
- Title(参考訳): ジェネレーション・リワードモデルに基づく対話推薦のための検索ベースインタラクション
- Authors: Xiaolei Wang, Chunxuan Xia, Junyi Li, Fanzhe Meng, Lei Huang, Jinpeng Wang, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
- 参考スコア(独自算出の注目度): 117.82681846559909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational recommendation systems (CRSs) use multi-turn interaction to capture user preferences and provide personalized recommendations. A fundamental challenge in CRSs lies in effectively understanding user preferences from conversations. User preferences can be multifaceted and complex, posing significant challenges for accurate recommendations even with access to abundant external knowledge. While interaction with users can clarify their true preferences, frequent user involvement can lead to a degraded user experience. To address this problem, we propose a generative reward model based simulated user, named GRSU, for automatic interaction with CRSs. The simulated user provides feedback to the items recommended by CRSs, enabling them to better capture intricate user preferences through multi-turn interaction. Inspired by generative reward models, we design two types of feedback actions for the simulated user: i.e., generative item scoring, which offers coarse-grained feedback, and attribute-based item critique, which provides fine-grained feedback. To ensure seamless integration, these feedback actions are unified into an instruction-based format, allowing the development of a unified simulated user via instruction tuning on synthesized data. With this simulated user, automatic multi-turn interaction with CRSs can be effectively conducted. Furthermore, to strike a balance between effectiveness and efficiency, we draw inspiration from the paradigm of reward-guided search in complex reasoning tasks and employ beam search for the interaction process. On top of this, we propose an efficient candidate ranking method to improve the recommendation results derived from interaction. Extensive experiments on public datasets demonstrate the effectiveness, efficiency, and transferability of our approach.
- Abstract(参考訳): 会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
CRSの基本的な課題は、会話からユーザの好みを効果的に理解することにある。
ユーザの好みは多面的かつ複雑であり、豊富な外部知識にアクセスしても正確なレコメンデーションには重大な課題がある。
ユーザとのインタラクションは、真の嗜好を明確にすることができる一方で、頻繁なユーザの関与は、劣化したユーザエクスペリエンスにつながる可能性がある。
この問題に対処するために, GRSU と呼ばれる生成報酬モデルを用いて, CRS と自動対話するユーザを提案する。
シミュレーションされたユーザは、CRSが推奨するアイテムにフィードバックを提供する。
生成的報酬モデルに触発されて、我々はシミュレーションされたユーザに対して、粗いフィードバックを提供する生成的アイテムスコアリングと、きめ細かいフィードバックを提供する属性に基づくアイテム批判という2つのタイプのフィードバックアクションを設計する。
シームレスな統合を保証するため、これらのフィードバックアクションは命令ベースの形式に統一され、合成されたデータに対する命令チューニングを通じて、統一されたシミュレーションユーザの開発を可能にする。
このシミュレートされたユーザにより、CRSと自動マルチターンインタラクションを効果的に行うことができる。
さらに、効率と効率のバランスをとるために、複雑な推論タスクにおける報酬誘導探索のパラダイムからインスピレーションを得て、相互作用プロセスのビームサーチを利用する。
そこで本研究では,インタラクションによる推薦結果を改善するために,効率的な候補ランキング手法を提案する。
公開データセットに関する大規模な実験は、我々のアプローチの有効性、効率、転送可能性を示している。
関連論文リスト
- Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [15.481944998961847]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - Towards Empathetic Conversational Recommender Systems [77.53167131692]
本稿では,共感型会話レコメンデータ(ECR)フレームワークを提案する。
ECRには、感情対応アイテムレコメンデーションと感情対応応答生成という、2つの主要なモジュールが含まれている。
ReDialデータセットの実験は、推奨精度を高め、ユーザの満足度を向上させる上で、我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2024-08-30T15:43:07Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - COLA: Improving Conversational Recommender Systems by Collaborative
Augmentation [9.99763097964222]
アイテム表現学習とユーザ嗜好モデリングの両方を改善するために,協調的拡張(COLA)手法を提案する。
すべての会話から対話型ユーザテムグラフを構築し,ユーザ認識情報によってアイテム表現を拡大する。
ユーザの嗜好モデルを改善するため,学習コーパスから類似した会話を検索し,ユーザの興味を反映した関連項目や属性を用いてユーザ表現を増強する。
論文 参考訳(メタデータ) (2022-12-15T12:37:28Z) - Knowledge Graph-enhanced Sampling for Conversational Recommender System [20.985222879085832]
Conversational Recommendation System (CRS) は対話システムの対話形式を用いて従来のレコメンデーションシステムの問題を解決する。
本研究は,知識グラフ強調サンプリング(KGenSam)と呼ばれる,CRSに適した文脈情報強調モデルを提案する。
ユーザ嗜好を得るための不確実性の高いファジィサンプルと、リコメンデータを更新するための信頼性の高い負サンプルをサンプリングすることにより、2つのサンプルが知識を高めるように設計されている。
論文 参考訳(メタデータ) (2021-10-13T11:00:50Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。