論文の概要: Vague Preference Policy Learning for Conversational Recommendation
- arxiv url: http://arxiv.org/abs/2306.04487v5
- Date: Fri, 21 Feb 2025 12:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:41:39.273992
- Title: Vague Preference Policy Learning for Conversational Recommendation
- Title(参考訳): 会話レコメンデーションのためのVag Preference Policy Learning
- Authors: Gangyi Zhang, Chongming Gao, Wenqiang Lei, Xiaojie Guo, Shijun Li, Hongshen Chen, Zhuozhi Ding, Sulong Xu, Lingfei Wu,
- Abstract要約: 会話レコメンデーションシステムは通常、ユーザが明確な好みを持っていると仮定し、潜在的に過度なフィルタリングにつながる。
本稿では,Vag Preference Multi-round Conversational Recommendation (VPMCR) シナリオを紹介する。
我々の研究は、ユーザの内在する曖昧さと相対的な意思決定プロセスを調整し、現実の応用性を向上させることでCRSを前進させます。
- 参考スコア(独自算出の注目度): 48.868921530958666
- License:
- Abstract: Conversational recommendation systems (CRS) commonly assume users have clear preferences, leading to potential over-filtering of relevant alternatives. However, users often exhibit vague, non-binary preferences. We introduce the Vague Preference Multi-round Conversational Recommendation (VPMCR) scenario, employing a soft estimation mechanism to accommodate users' vague and dynamic preferences while mitigating over-filtering. In VPMCR, we propose Vague Preference Policy Learning (VPPL), consisting of Ambiguity-aware Soft Estimation (ASE) and Dynamism-aware Policy Learning (DPL). ASE captures preference vagueness by estimating scores for clicked and non-clicked options, using a choice-based approach and time-aware preference decay. DPL leverages ASE's preference distribution to guide the conversation and adapt to preference changes for recommendations or attribute queries. Extensive experiments demonstrate VPPL's effectiveness within VPMCR, outperforming existing methods and setting a new benchmark. Our work advances CRS by accommodating users' inherent ambiguity and relative decision-making processes, improving real-world applicability.
- Abstract(参考訳): 会話レコメンデーションシステム(CRS)は、ユーザーが明確な好みを持っていると一般的に仮定し、関連する選択肢を過剰にフィルタリングする可能性がある。
しかし、ユーザーは曖昧で非バイナリな好みを示すことが多い。
本稿では,Vag Preference Multi-round Conversational Recommendation (VPMCR) のシナリオを紹介する。
VPMCRでは,あいまいさを意識したソフトウェア推定(ASE)とダイナミズムを意識したポリシー学習(DPL)からなるVag Preference Policy Learning(VPPL)を提案する。
ASEは、選択ベースのアプローチと時間認識の優先傾向減衰を用いて、クリックおよび非クリックオプションのスコアを推定することで、好みの曖昧さを捉える。
DPLはASEの好み分布を利用して会話をガイドし、レコメンデーションや属性クエリの好みの変更に適応する。
大規模な実験では、VPPLがVPMCR内で有効であることを示し、既存のメソッドを上回り、新しいベンチマークを設定している。
本研究は,ユーザの内在するあいまいさと相対的な意思決定プロセスを調整し,現実の応用性を向上させることにより,CRSを向上する。
関連論文リスト
- Preference Discerning with LLM-Enhanced Generative Retrieval [28.309905847867178]
我々は、選好識別という新しいパラダイムを提案する。
嗜好判断において、我々は、そのコンテキスト内でのユーザの嗜好に対して、生成的シーケンシャルなレコメンデーションシステムを明示的に条件付けする。
ユーザレビューと項目固有データに基づいて,Large Language Models (LLMs) を用いてユーザ嗜好を生成する。
論文 参考訳(メタデータ) (2024-12-11T18:26:55Z) - Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [15.481944998961847]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - Harm Mitigation in Recommender Systems under User Preference Dynamics [16.213153879446796]
本稿では,レコメンデーション,ユーザ関心,有害コンテンツとの相互作用を考慮したレコメンデーションシステムについて考察する。
クリックスルー率(CTR)の最大化と害軽減のトレードオフを確立するためのレコメンデーションポリシーを模索する。
論文 参考訳(メタデータ) (2024-06-14T09:52:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Meta Policy Learning for Cold-Start Conversational Recommendation [71.13044166814186]
メタ強化学習を用いて冷間開始ユーザを対象としたCRSポリシー学習について検討する。
政策適応を容易にするために,3つの相乗成分を設計する。
論文 参考訳(メタデータ) (2022-05-24T05:06:52Z) - Estimating and Penalizing Induced Preference Shifts in Recommender
Systems [10.052697877248601]
システムデザイナは、レコメンデータが引き起こすシフトを見積もること、そのようなシフトが望まないかどうかを評価すること、さらには問題のあるシフトを避けるために積極的に最適化すること、などを議論する。
我々は、過去のユーザインタラクションデータを使用して、その好みのダイナミクスを暗黙的に含む予測的ユーザモデルをトレーニングする。
シミュレーション実験では、学習した嗜好動態モデルがユーザの嗜好を推定し、新しいレコメンデーションに対してどのように反応するかを示す。
論文 参考訳(メタデータ) (2022-04-25T21:04:46Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。