論文の概要: Reward Constrained Interactive Recommendation with Natural Language
Feedback
- arxiv url: http://arxiv.org/abs/2005.01618v1
- Date: Mon, 4 May 2020 16:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:19:40.463817
- Title: Reward Constrained Interactive Recommendation with Natural Language
Feedback
- Title(参考訳): 自然言語フィードバックを用いたReward Constrained Interactive Recommendation
- Authors: Ruiyi Zhang, Tong Yu, Yilin Shen, Hongxia Jin, Changyou Chen, Lawrence
Carin
- Abstract要約: 制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
- 参考スコア(独自算出の注目度): 158.8095688415973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based interactive recommendation provides richer user feedback and has
demonstrated advantages over traditional interactive recommender systems.
However, recommendations can easily violate preferences of users from their
past natural-language feedback, since the recommender needs to explore new
items for further improvement. To alleviate this issue, we propose a novel
constraint-augmented reinforcement learning (RL) framework to efficiently
incorporate user preferences over time. Specifically, we leverage a
discriminator to detect recommendations violating user historical preference,
which is incorporated into the standard RL objective of maximizing expected
cumulative future rewards. Our proposed framework is general and is further
extended to the task of constrained text generation. Empirical results show
that the proposed method yields consistent improvement relative to standard RL
methods.
- Abstract(参考訳): テキストベースのインタラクティブレコメンデーションはよりリッチなユーザフィードバックを提供し、従来のインタラクティブレコメンデーションシステムよりもアドバンテージを示している。
しかし、レコメンデーションは、さらなる改善のために新しい項目を探索する必要があるため、過去の自然言語フィードバックからのユーザの好みに簡単に違反する可能性がある。
この問題を軽減するために,時間とともにユーザの好みを効率的に組み込むための制約強化学習(RL)フレームワークを提案する。
具体的には,ユーザの歴史的好みに違反するレコメンデーションを判別器を用いて検出し,期待累積的な将来報酬を最大化する標準rl目標に組み込む。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
実験の結果,提案手法は標準RL法と比較して一貫した改善が得られた。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Preference Discerning with LLM-Enhanced Generative Retrieval [28.309905847867178]
我々は、選好識別という新しいパラダイムを提案する。
嗜好判断において、我々は、そのコンテキスト内でのユーザの嗜好に対して、生成的シーケンシャルなレコメンデーションシステムを明示的に条件付けする。
ユーザレビューと項目固有データに基づいて,Large Language Models (LLMs) を用いてユーザ嗜好を生成する。
論文 参考訳(メタデータ) (2024-12-11T18:26:55Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Hierarchical Reinforcement Learning for Modeling User Novelty-Seeking
Intent in Recommender Systems [26.519571240032967]
本稿では,階層型ユーザ新規検索意図をモデル化する階層型強化学習手法を提案する。
さらに, 階層的RL (HRL) エージェントの報酬関数に多様性と新規性に関連する測定を取り入れ, ユーザの探索を促進する。
論文 参考訳(メタデータ) (2023-06-02T12:02:23Z) - Editable User Profiles for Controllable Text Recommendation [66.00743968792275]
制御可能なテキストレコメンデーションのための新しい概念値ボトルネックモデル LACE を提案する。
LACEは、人間の読みやすい概念の簡潔なセットで各ユーザーを表現する。
ユーザ文書に基づいて概念のパーソナライズされた表現を学習する。
論文 参考訳(メタデータ) (2023-04-09T14:52:18Z) - Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender
System [11.404192885921498]
Chat-Recは会話レコメンデーションシステムを構築するための新しいパラダイムである。
Chat-Recは、ユーザの好みを学習し、ユーザと製品間の接続を確立するのに有効である。
実験では、Chat-Recはトップkレコメンデーションの結果を効果的に改善し、ゼロショット評価予測タスクでより良いパフォーマンスを発揮する。
論文 参考訳(メタデータ) (2023-03-25T17:37:43Z) - Two-Stage Neural Contextual Bandits for Personalised News Recommendation [50.3750507789989]
既存のパーソナライズされたニュースレコメンデーション手法は、ユーザの興味を搾取することに集中し、レコメンデーションにおける探索を無視する。
我々は、エクスプロイトと探索のトレードオフに対処する文脈的包括的レコメンデーション戦略に基づいて構築する。
我々はユーザとニュースにディープラーニング表現を使用し、ニューラルアッパー信頼境界(UCB)ポリシーを一般化し、加法的 UCB と双線形 UCB を一般化する。
論文 参考訳(メタデータ) (2022-06-26T12:07:56Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。