論文の概要: Robust Reinforcement Learning Objectives for Sequential Recommender
Systems
- arxiv url: http://arxiv.org/abs/2305.18820v1
- Date: Tue, 30 May 2023 08:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:39:08.780221
- Title: Robust Reinforcement Learning Objectives for Sequential Recommender
Systems
- Title(参考訳): 逐次推薦システムのためのロバスト強化学習目標
- Authors: Melissa Mozifian, Tristan Sylvain, Dave Evans and Lili Meng
- Abstract要約: 注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
近年, これらのモデルに強化学習(RL)を統合する研究が進められている。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペースの導入、十分な報酬信号を備えたデータセットの不足といった課題が提示される。
- 参考スコア(独自算出の注目度): 10.226091667719391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based sequential recommendation methods have demonstrated promising
results by accurately capturing users' dynamic interests from historical
interactions. In addition to generating superior user representations, recent
studies have begun integrating reinforcement learning (RL) into these models.
Framing sequential recommendation as an RL problem with reward signals, unlocks
developing recommender systems (RS) that consider a vital aspect-incorporating
direct user feedback in the form of rewards to deliver a more personalized
experience. Nonetheless, employing RL algorithms presents challenges, including
off-policy training, expansive combinatorial action spaces, and the scarcity of
datasets with sufficient reward signals. Contemporary approaches have attempted
to combine RL and sequential modeling, incorporating contrastive-based
objectives and negative sampling strategies for training the RL component. In
this study, we further emphasize the efficacy of contrastive-based objectives
paired with augmentation to address datasets with extended horizons.
Additionally, we recognize the potential instability issues that may arise
during the application of negative sampling. These challenges primarily stem
from the data imbalance prevalent in real-world datasets, which is a common
issue in offline RL contexts. While our established baselines attempt to
mitigate this through various techniques, instability remains an issue.
Therefore, we introduce an enhanced methodology aimed at providing a more
effective solution to these challenges.
- Abstract(参考訳): 注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
優れたユーザ表現を生成することに加え、最近の研究は強化学習(RL)をこれらのモデルに統合し始めている。
報酬信号を備えたRL問題としてシーケンシャルレコメンデーションを分類することで、よりパーソナライズされたエクスペリエンスを提供するための報酬の形で、直接的なユーザフィードバックを組み込んだ重要な側面を考慮したレコメンデーションシステム(RS)を開発することができる。
それでも、RLアルゴリズムを採用することで、政治外のトレーニング、複合的な行動空間の拡大、十分な報酬信号を持つデータセットの不足といった課題が提示される。
現代のアプローチでは、RLコンポーネントをトレーニングするための対照的な目的と負のサンプリング戦略を取り入れて、RLとシーケンシャルモデリングを組み合わせる試みが行われている。
本研究では,拡張された地平線を持つデータセットに対応するために,拡張と組み合わせたコントラストベース目的の有効性をさらに強調する。
さらに,負のサンプリングの適用中に生じる潜在的な不安定性の問題も認識する。
これらの課題は、主に、オフラインのRLコンテキストで一般的な問題である、実世界のデータセットで一般的なデータ不均衡に起因する。
確立されたベースラインは、様々なテクニックを通じてこれを緩和しようとしていますが、不安定性は依然として問題です。
そこで本研究では,これらの課題に対して,より効果的な解決策を提供するための拡張手法を提案する。
関連論文リスト
- Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS) は、様々なアプリケーションで約束されている。
しかし彼らは、特に報酬関数の作成や、既存の大規模なデータセットの活用など、課題に悩まされている。
オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-26T12:08:58Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。