論文の概要: Reward Constrained Interactive Recommendation with Natural Language
Feedback
- arxiv url: http://arxiv.org/abs/2005.01618v1
- Date: Mon, 4 May 2020 16:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:19:40.463817
- Title: Reward Constrained Interactive Recommendation with Natural Language
Feedback
- Title(参考訳): 自然言語フィードバックを用いたReward Constrained Interactive Recommendation
- Authors: Ruiyi Zhang, Tong Yu, Yilin Shen, Hongxia Jin, Changyou Chen, Lawrence
Carin
- Abstract要約: 制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
- 参考スコア(独自算出の注目度): 158.8095688415973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based interactive recommendation provides richer user feedback and has
demonstrated advantages over traditional interactive recommender systems.
However, recommendations can easily violate preferences of users from their
past natural-language feedback, since the recommender needs to explore new
items for further improvement. To alleviate this issue, we propose a novel
constraint-augmented reinforcement learning (RL) framework to efficiently
incorporate user preferences over time. Specifically, we leverage a
discriminator to detect recommendations violating user historical preference,
which is incorporated into the standard RL objective of maximizing expected
cumulative future rewards. Our proposed framework is general and is further
extended to the task of constrained text generation. Empirical results show
that the proposed method yields consistent improvement relative to standard RL
methods.
- Abstract(参考訳): テキストベースのインタラクティブレコメンデーションはよりリッチなユーザフィードバックを提供し、従来のインタラクティブレコメンデーションシステムよりもアドバンテージを示している。
しかし、レコメンデーションは、さらなる改善のために新しい項目を探索する必要があるため、過去の自然言語フィードバックからのユーザの好みに簡単に違反する可能性がある。
この問題を軽減するために,時間とともにユーザの好みを効率的に組み込むための制約強化学習(RL)フレームワークを提案する。
具体的には,ユーザの歴史的好みに違反するレコメンデーションを判別器を用いて検出し,期待累積的な将来報酬を最大化する標準rl目標に組み込む。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
実験の結果,提案手法は標準RL法と比較して一貫した改善が得られた。
関連論文リスト
- RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Hierarchical Reinforcement Learning for Modeling User Novelty-Seeking
Intent in Recommender Systems [26.519571240032967]
本稿では,階層型ユーザ新規検索意図をモデル化する階層型強化学習手法を提案する。
さらに, 階層的RL (HRL) エージェントの報酬関数に多様性と新規性に関連する測定を取り入れ, ユーザの探索を促進する。
論文 参考訳(メタデータ) (2023-06-02T12:02:23Z) - Editable User Profiles for Controllable Text Recommendation [66.00743968792275]
制御可能なテキストレコメンデーションのための新しい概念値ボトルネックモデル LACE を提案する。
LACEは、人間の読みやすい概念の簡潔なセットで各ユーザーを表現する。
ユーザ文書に基づいて概念のパーソナライズされた表現を学習する。
論文 参考訳(メタデータ) (2023-04-09T14:52:18Z) - Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender
System [11.404192885921498]
Chat-Recは会話レコメンデーションシステムを構築するための新しいパラダイムである。
Chat-Recは、ユーザの好みを学習し、ユーザと製品間の接続を確立するのに有効である。
実験では、Chat-Recはトップkレコメンデーションの結果を効果的に改善し、ゼロショット評価予測タスクでより良いパフォーマンスを発揮する。
論文 参考訳(メタデータ) (2023-03-25T17:37:43Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Comparison-based Conversational Recommender System with Relative Bandit
Feedback [15.680698037463488]
比較に基づく会話推薦システムを提案する。
我々はRelativeConUCBと呼ばれる新しい帯域幅アルゴリズムを提案する。
合成および実世界の両方のデータセットに対する実験により,提案手法の利点が検証された。
論文 参考訳(メタデータ) (2022-08-21T08:05:46Z) - Two-Stage Neural Contextual Bandits for Personalised News Recommendation [50.3750507789989]
既存のパーソナライズされたニュースレコメンデーション手法は、ユーザの興味を搾取することに集中し、レコメンデーションにおける探索を無視する。
我々は、エクスプロイトと探索のトレードオフに対処する文脈的包括的レコメンデーション戦略に基づいて構築する。
我々はユーザとニュースにディープラーニング表現を使用し、ニューラルアッパー信頼境界(UCB)ポリシーを一般化し、加法的 UCB と双線形 UCB を一般化する。
論文 参考訳(メタデータ) (2022-06-26T12:07:56Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。