論文の概要: Reformulating Conversational Recommender Systems as Tri-Phase Offline Policy Learning
- arxiv url: http://arxiv.org/abs/2408.06809v2
- Date: Sat, 07 Sep 2024 09:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:51:36.776532
- Title: Reformulating Conversational Recommender Systems as Tri-Phase Offline Policy Learning
- Title(参考訳): 三相オフライン政策学習としての会話レコメンダシステムの改革
- Authors: Gangyi Zhang, Chongming Gao, Hang Pan, Runzhe Teng, Ruizhe Li,
- Abstract要約: Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)
本稿では,Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)を紹介する。
- 参考スコア(独自算出の注目度): 5.453444582931813
- License:
- Abstract: Existing Conversational Recommender Systems (CRS) predominantly utilize user simulators for training and evaluating recommendation policies. These simulators often oversimplify the complexity of user interactions by focusing solely on static item attributes, neglecting the rich, evolving preferences that characterize real-world user behavior. This limitation frequently leads to models that perform well in simulated environments but falter in actual deployment. Addressing these challenges, this paper introduces the Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS), which significantly reduces dependency on real-time interactions and mitigates overfitting issues prevalent in traditional approaches. TCRS integrates a model-based offline learning strategy with a controllable user simulation that dynamically aligns with both personalized and evolving user preferences. Through comprehensive experiments, TCRS demonstrates enhanced robustness, adaptability, and accuracy in recommendations, outperforming traditional CRS models in diverse user scenarios. This approach not only provides a more realistic evaluation environment but also facilitates a deeper understanding of user behavior dynamics, thereby refining the recommendation process.
- Abstract(参考訳): 既存のConversational Recommender Systems (CRS) は、主にユーザシミュレータをトレーニングやレコメンデーションポリシーの評価に利用している。
これらのシミュレータは、静的なアイテム属性のみにフォーカスすることで、現実のユーザの振る舞いを特徴付けるリッチで進化する好みを無視して、ユーザインタラクションの複雑さを単純化することが多い。
この制限はしばしば、シミュレーション環境ではうまく機能するが、実際のデプロイメントでは失敗するモデルにつながる。
これらの課題に対処するため,本論文では,リアルタイムインタラクションへの依存を著しく低減し,従来のアプローチに代表される過度な適合を緩和する,Tri-Phase Offline Policy-based Conversational Recommender System (TCRS)を提案する。
TCRSは、モデルベースのオフライン学習戦略と制御可能なユーザーシミュレーションを統合し、パーソナライズされたユーザー好みと進化したユーザー好みの両方を動的に調整する。
包括的な実験を通じて、TCRSは、さまざまなユーザシナリオにおける従来のCRSモデルよりも優れた、堅牢性、適応性、レコメンデーションの正確性を示す。
このアプローチは、より現実的な評価環境を提供するだけでなく、ユーザの振る舞いのダイナミクスをより深く理解し、レコメンデーションプロセスを洗練します。
関連論文リスト
- A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Improving Conversational Recommendation Systems via Counterfactual Data
Simulation [73.4526400381668]
会話推薦システム(CRS)は、自然言語による会話を通じてレコメンデーションサービスを提供することを目的としている。
既存のCRSアプローチは、トレーニングデータの不足により、トレーニングの不十分な問題に悩まされることが多い。
我々は,CRSにおけるデータ不足の問題を緩和するため,CFCRSと呼ばれるCRSに対するCounterFactualデータシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T12:48:56Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems [43.31078296862647]
逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している
RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。
シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-05-03T19:21:25Z) - Meta Policy Learning for Cold-Start Conversational Recommendation [71.13044166814186]
メタ強化学習を用いて冷間開始ユーザを対象としたCRSポリシー学習について検討する。
政策適応を容易にするために,3つの相乗成分を設計する。
論文 参考訳(メタデータ) (2022-05-24T05:06:52Z) - Scalable and Robust Self-Learning for Skill Routing in Large-Scale
Conversational AI Systems [13.705147776518421]
最先端システムは、自然な会話を可能にするためにモデルベースのアプローチを使用する。
ルーティングの代替を探索するスケーラブルな自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T17:46:14Z) - Knowledge Graph-enhanced Sampling for Conversational Recommender System [20.985222879085832]
Conversational Recommendation System (CRS) は対話システムの対話形式を用いて従来のレコメンデーションシステムの問題を解決する。
本研究は,知識グラフ強調サンプリング(KGenSam)と呼ばれる,CRSに適した文脈情報強調モデルを提案する。
ユーザ嗜好を得るための不確実性の高いファジィサンプルと、リコメンデータを更新するための信頼性の高い負サンプルをサンプリングすることにより、2つのサンプルが知識を高めるように設計されている。
論文 参考訳(メタデータ) (2021-10-13T11:00:50Z) - Knowledge-Enhanced Hierarchical Graph Transformer Network for
Multi-Behavior Recommendation [56.12499090935242]
本研究では,ユーザとレコメンデータシステムにおける項目間の多種類の対話パターンを探索する知識強化階層型グラフトランスフォーマネットワーク(KHGT)を提案する。
KHGTはグラフ構造化ニューラルネットワーク上に構築され、タイプ固有の振る舞い特性をキャプチャする。
KHGTは、様々な評価設定において、最先端のレコメンデーション手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。