論文の概要: Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation
- arxiv url: http://arxiv.org/abs/2310.19536v1
- Date: Mon, 30 Oct 2023 13:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:07:11.030227
- Title: Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation
- Title(参考訳): 逆バッチ逆強化学習 : 対話的勧告のための不完全な実証から振り返る
- Authors: Jialin Liu, Xinyan Su, Zeyu He, Xiangyu Zhao, Jun Li
- Abstract要約: 我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 23.048841953423846
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rewards serve as a measure of user satisfaction and act as a limiting factor
in interactive recommender systems. In this research, we focus on the problem
of learning to reward (LTR), which is fundamental to reinforcement learning.
Previous approaches either introduce additional procedures for learning to
reward, thereby increasing the complexity of optimization, or assume that
user-agent interactions provide perfect demonstrations, which is not feasible
in practice. Ideally, we aim to employ a unified approach that optimizes both
the reward and policy using compositional demonstrations. However, this
requirement presents a challenge since rewards inherently quantify user
feedback on-policy, while recommender agents approximate off-policy future
cumulative valuation. To tackle this challenge, we propose a novel batch
inverse reinforcement learning paradigm that achieves the desired properties.
Our method utilizes discounted stationary distribution correction to combine
LTR and recommender agent evaluation. To fulfill the compositional requirement,
we incorporate the concept of pessimism through conservation. Specifically, we
modify the vanilla correction using Bellman transformation and enforce KL
regularization to constrain consecutive policy updates. We use two real-world
datasets which represent two compositional coverage to conduct empirical
studies, the results also show that the proposed method relatively improves
both effectiveness (2.3\%) and efficiency (11.53\%)
- Abstract(参考訳): 報酬はユーザの満足度を測る指標であり、インタラクティブなレコメンデーションシステムでは制限要因として機能する。
本研究では,強化学習の基礎となる学習報酬問題(LTR)に焦点を当てた。
従来のアプローチでは、報酬を得るための追加の手順を導入し、最適化の複雑さを増大させるか、ユーザとエージェントのインタラクションが完璧なデモを提供すると仮定する。
理想的には、構成実証を用いて報酬と政策の両方を最適化する統一的なアプローチを採用することを目指している。
しかし、この要件は、報酬が本質的に政治におけるユーザーのフィードバックを定量化するのに対し、推薦エージェントは政治外の将来的な累積評価を近似するため、課題となる。
この課題に取り組むために,要求される特性を実現する新しいバッチ逆強化学習パラダイムを提案する。
LTRとレコメンダエージェント評価を併用するために,ディスカウントされた定常分布補正を利用する。
構成要件を満たすために,保存を通じて悲観主義の概念を取り入れる。
具体的には,ベルマン変換を用いてバニラ補正を修正し,KL正則化を適用した。
実世界の2つのデータセットを用いて経験的研究を行い,提案手法は相対的に有効性(2.3\%)と効率(11.53\%)を向上することを示した。
関連論文リスト
- Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Offline Meta-level Model-based Reinforcement Learning Approach for
Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。
既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。
本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T08:58:35Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。