Fugu-MT 論文翻訳(概要): Reward Constrained Interactive Recommendation with Natural Language Feedback

論文の概要: Reward Constrained Interactive Recommendation with Natural Language Feedback

arxiv url: http://arxiv.org/abs/2005.01618v1
Date: Mon, 4 May 2020 16:23:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 00:19:40.463817
Title: Reward Constrained Interactive Recommendation with Natural Language Feedback
Title（参考訳）: 自然言語フィードバックを用いたReward Constrained Interactive Recommendation
Authors: Ruiyi Zhang, Tong Yu, Yilin Shen, Hongxia Jin, Changyou Chen, Lawrence Carin
Abstract要約: 制約強化強化学習(RL)フレームワークを提案する。具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
参考スコア（独自算出の注目度）: 158.8095688415973
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based interactive recommendation provides richer user feedback and has demonstrated advantages over traditional interactive recommender systems. However, recommendations can easily violate preferences of users from their past natural-language feedback, since the recommender needs to explore new items for further improvement. To alleviate this issue, we propose a novel constraint-augmented reinforcement learning (RL) framework to efficiently incorporate user preferences over time. Specifically, we leverage a discriminator to detect recommendations violating user historical preference, which is incorporated into the standard RL objective of maximizing expected cumulative future rewards. Our proposed framework is general and is further extended to the task of constrained text generation. Empirical results show that the proposed method yields consistent improvement relative to standard RL methods.
Abstract（参考訳）: テキストベースのインタラクティブレコメンデーションはよりリッチなユーザフィードバックを提供し、従来のインタラクティブレコメンデーションシステムよりもアドバンテージを示している。しかし、レコメンデーションは、さらなる改善のために新しい項目を探索する必要があるため、過去の自然言語フィードバックからのユーザの好みに簡単に違反する可能性がある。この問題を軽減するために,時間とともにユーザの好みを効率的に組み込むための制約強化学習(RL)フレームワークを提案する。具体的には,ユーザの歴史的好みに違反するレコメンデーションを判別器を用いて検出し,期待累積的な将来報酬を最大化する標準rl目標に組み込む。提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。実験の結果,提案手法は標準RL法と比較して一貫した改善が得られた。

関連論文リスト

Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文参考訳（メタデータ） (2025-04-29T06:37:30Z)
Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳（メタデータ） (2025-02-05T17:14:45Z)
Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。次にReasoningを利用したRecommenderフレームワークを導入する。
論文参考訳（メタデータ） (2025-02-04T07:17:54Z)
Recommendation and Temptation [3.734925590025741]
エンリッチメントと誘惑の緊張を明示的にモデル化する新しいレコメンデーション設計を提案する。私たちの仕事は、よりニュアンスでユーザ中心の推奨設計へのパラダイムシフトを表しています。
論文参考訳（メタデータ） (2024-12-13T22:44:22Z)
Preference Discerning with LLM-Enhanced Generative Retrieval [28.309905847867178]
我々は、選好識別という新しいパラダイムを提案する。嗜好判断において、我々は、そのコンテキスト内でのユーザの嗜好に対して、生成的シーケンシャルなレコメンデーションシステムを明示的に条件付けする。ユーザレビューと項目固有データに基づいて,Large Language Models (LLMs) を用いてユーザ嗜好を生成する。
論文参考訳（メタデータ） (2024-12-11T18:26:55Z)
RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文参考訳（メタデータ） (2024-02-16T18:50:24Z)
Hierarchical Reinforcement Learning for Modeling User Novelty-Seeking Intent in Recommender Systems [26.519571240032967]
本稿では,階層型ユーザ新規検索意図をモデル化する階層型強化学習手法を提案する。さらに, 階層的RL (HRL) エージェントの報酬関数に多様性と新規性に関連する測定を取り入れ, ユーザの探索を促進する。
論文参考訳（メタデータ） (2023-06-02T12:02:23Z)
Editable User Profiles for Controllable Text Recommendation [66.00743968792275]
制御可能なテキストレコメンデーションのための新しい概念値ボトルネックモデル LACE を提案する。 LACEは、人間の読みやすい概念の簡潔なセットで各ユーザーを表現する。ユーザ文書に基づいて概念のパーソナライズされた表現を学習する。
論文参考訳（メタデータ） (2023-04-09T14:52:18Z)
Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System [11.404192885921498]
Chat-Recは会話レコメンデーションシステムを構築するための新しいパラダイムである。 Chat-Recは、ユーザの好みを学習し、ユーザと製品間の接続を確立するのに有効である。実験では、Chat-Recはトップkレコメンデーションの結果を効果的に改善し、ゼロショット評価予測タスクでより良いパフォーマンスを発揮する。
論文参考訳（メタデータ） (2023-03-25T17:37:43Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Comparison-based Conversational Recommender System with Relative Bandit Feedback [15.680698037463488]
比較に基づく会話推薦システムを提案する。我々はRelativeConUCBと呼ばれる新しい帯域幅アルゴリズムを提案する。合成および実世界の両方のデータセットに対する実験により,提案手法の利点が検証された。
論文参考訳（メタデータ） (2022-08-21T08:05:46Z)
Two-Stage Neural Contextual Bandits for Personalised News Recommendation [50.3750507789989]
既存のパーソナライズされたニュースレコメンデーション手法は、ユーザの興味を搾取することに集中し、レコメンデーションにおける探索を無視する。我々は、エクスプロイトと探索のトレードオフに対処する文脈的包括的レコメンデーション戦略に基づいて構築する。我々はユーザとニュースにディープラーニング表現を使用し、ニューラルアッパー信頼境界(UCB)ポリシーを一般化し、加法的 UCB と双線形 UCB を一般化する。
論文参考訳（メタデータ） (2022-06-26T12:07:56Z)
CausPref: Causal Preference Learning for Out-of-Distribution Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文参考訳（メタデータ） (2022-02-08T16:42:03Z)
Improving Long-Term Metrics in Recommendation Systems using Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-06-01T15:58:05Z)
Offline Meta-level Model-based Reinforcement Learning Approach for Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2020-12-04T08:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。