Fugu-MT 論文翻訳(概要): Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation

論文の概要: Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation

arxiv url: http://arxiv.org/abs/2310.19536v1
Date: Mon, 30 Oct 2023 13:43:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 20:07:11.030227
Title: Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation
Title（参考訳）: 逆バッチ逆強化学習 : 対話的勧告のための不完全な実証から振り返る
Authors: Jialin Liu, Xinyan Su, Zeyu He, Xiangyu Zhao, Jun Li
Abstract要約: 我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
参考スコア（独自算出の注目度）: 23.048841953423846
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Rewards serve as a measure of user satisfaction and act as a limiting factor in interactive recommender systems. In this research, we focus on the problem of learning to reward (LTR), which is fundamental to reinforcement learning. Previous approaches either introduce additional procedures for learning to reward, thereby increasing the complexity of optimization, or assume that user-agent interactions provide perfect demonstrations, which is not feasible in practice. Ideally, we aim to employ a unified approach that optimizes both the reward and policy using compositional demonstrations. However, this requirement presents a challenge since rewards inherently quantify user feedback on-policy, while recommender agents approximate off-policy future cumulative valuation. To tackle this challenge, we propose a novel batch inverse reinforcement learning paradigm that achieves the desired properties. Our method utilizes discounted stationary distribution correction to combine LTR and recommender agent evaluation. To fulfill the compositional requirement, we incorporate the concept of pessimism through conservation. Specifically, we modify the vanilla correction using Bellman transformation and enforce KL regularization to constrain consecutive policy updates. We use two real-world datasets which represent two compositional coverage to conduct empirical studies, the results also show that the proposed method relatively improves both effectiveness (2.3\%) and efficiency (11.53\%)
Abstract（参考訳）: 報酬はユーザの満足度を測る指標であり、インタラクティブなレコメンデーションシステムでは制限要因として機能する。本研究では,強化学習の基礎となる学習報酬問題(LTR)に焦点を当てた。従来のアプローチでは、報酬を得るための追加の手順を導入し、最適化の複雑さを増大させるか、ユーザとエージェントのインタラクションが完璧なデモを提供すると仮定する。理想的には、構成実証を用いて報酬と政策の両方を最適化する統一的なアプローチを採用することを目指している。しかし、この要件は、報酬が本質的に政治におけるユーザーのフィードバックを定量化するのに対し、推薦エージェントは政治外の将来的な累積評価を近似するため、課題となる。この課題に取り組むために,要求される特性を実現する新しいバッチ逆強化学習パラダイムを提案する。 LTRとレコメンダエージェント評価を併用するために,ディスカウントされた定常分布補正を利用する。構成要件を満たすために,保存を通じて悲観主義の概念を取り入れる。具体的には,ベルマン変換を用いてバニラ補正を修正し,KL正則化を適用した。実世界の2つのデータセットを用いて経験的研究を行い,提案手法は相対的に有効性(2.3\%)と効率(11.53\%)を向上することを示した。

関連論文リスト

Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文参考訳（メタデータ） (2025-01-29T04:22:29Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文参考訳（メタデータ） (2024-10-08T08:04:09Z)
Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文参考訳（メタデータ） (2024-03-12T14:51:57Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
A State Augmentation based approach to Reinforcement Learning from Human Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文参考訳（メタデータ） (2023-02-17T07:10:50Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Offline Meta-level Model-based Reinforcement Learning Approach for Cold-Start Recommendation [27.17948754183511]
強化学習は、リコメンデータシステムに対する長期的なユーザの関心を最適化する上で大きな可能性を秘めている。既存のRLベースのレコメンデーション手法では、ユーザが堅牢なレコメンデーションポリシーを学ぶために、多数のインタラクションが必要である。本稿では,ユーザ適応の高速化を目的としたメタレベルモデルに基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2020-12-04T08:58:35Z)
Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。 InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文参考訳（メタデータ） (2020-11-04T12:12:25Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。