論文の概要: Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference
- arxiv url: http://arxiv.org/abs/2105.00822v2
- Date: Wed, 5 May 2021 13:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 13:02:42.539425
- Title: Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference
- Title(参考訳): 一般化行動傾向推論のための生成的逆流学習
- Authors: Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang and
Quan Z. Sheng
- Abstract要約: ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
- 参考スコア(独自算出の注目度): 71.11416263370823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning have inspired increasing interest
in learning user modeling adaptively through dynamic interactions, e.g., in
reinforcement learning based recommender systems. Reward function is crucial
for most of reinforcement learning applications as it can provide the guideline
about the optimization. However, current reinforcement-learning-based methods
rely on manually-defined reward functions, which cannot adapt to dynamic and
noisy environments. Besides, they generally use task-specific reward functions
that sacrifice generalization ability. We propose a generative inverse
reinforcement learning for user behavioral preference modelling, to address the
above issues. Instead of using predefined reward functions, our model can
automatically learn the rewards from user's actions based on discriminative
actor-critic network and Wasserstein GAN. Our model provides a general way of
characterizing and explaining underlying behavioral tendencies, and our
experiments show our method outperforms state-of-the-art methods in a variety
of scenarios, namely traffic signal control, online recommender systems, and
scanpath prediction.
- Abstract(参考訳): 強化学習の最近の進歩は、強化学習ベースのレコメンダシステムなど、動的インタラクションを通じて適応的にユーザーモデリングを学ぶことへの関心を高めている。
最適化に関するガイドラインを提供するため、ほとんどの強化学習アプリケーションにとって、報酬関数は不可欠です。
しかし,現在の強化学習に基づく手法では,動的環境や騒音環境に適応できない手作業による報酬関数が用いられている。
さらに、一般的には一般化能力を犠牲にするタスク固有の報酬機能を使用する。
本稿では,ユーザの行動嗜好モデリングのための生成的逆強化学習を提案する。
事前定義された報酬機能を使用する代わりに,識別的アクタ-クリティックネットワークとwasserstein ganに基づいて,ユーザのアクションから報酬を自動的に学習する。
提案手法は,交通信号制御,オンラインレコメンデータシステム,スキャンパス予測など,様々なシナリオにおいて最先端の手法よりも優れていることを示す。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Model-free Policy Learning with Reward Gradients [9.847875182113137]
モデルを学ぶことなく報酬勾配を統合する新しいアプローチであるtextitReward Policy Gradient estimator を開発した。
また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。
論文 参考訳(メタデータ) (2021-03-09T00:14:13Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。