論文の概要: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble
- arxiv url: http://arxiv.org/abs/2206.00238v1
- Date: Wed, 1 Jun 2022 05:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 03:23:57.636478
- Title: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble
- Title(参考訳): Dynamics-Agnostic Discriminator Ensemble によるトランスファタブル・リワード学習
- Authors: Fan-Ming Luo, Xingchen Cao, Yang Yu
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。
この研究は、伝達可能な報酬関数を学習するための一般的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.36488705757229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) recovers the underlying reward function
from expert demonstrations. A generalizable reward function is even desired as
it captures the fundamental motivation of the expert. However, classical IRL
methods can only recover reward functions coupled with the training dynamics,
thus are hard to generalize to a changed environment. Previous
dynamics-agnostic reward learning methods have strict assumptions, such as that
the reward function has to be state-only. This work proposes a general approach
to learn transferable reward functions, Dynamics-Agnostic
Discriminator-Ensemble Reward Learning (DARL). Following the adversarial
imitation learning (AIL) framework, DARL learns a dynamics-agnostic
discriminator on a latent space mapped from the original state-action space.
The latent space is learned to contain the least information of the dynamics.
Moreover, to reduce the reliance of the discriminator on policies, the reward
function is represented as an ensemble of the discriminators during training.
We assess DARL in four MuJoCo tasks with dynamics transfer. Empirical results
compared with the state-of-the-art AIL methods show that DARL can learn a
reward that is more consistent with the true reward, thus obtaining higher
environment returns.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。
一般化可能な報酬関数は、専門家の基本的な動機を捉えているため、さらに望ましい。
しかし、古典的IRL法は、トレーニング力学と結合した報酬関数のみを復元できるため、変化した環境に一般化することは困難である。
従来の力学に依存しない報酬学習法は、報酬関数が状態のみであるような厳密な仮定を持つ。
本研究では、伝達可能な報酬関数、DARL(Dynamics-Agnostic Discriminator-Ensemble Reward Learning)の学習方法を提案する。
逆模倣学習(AIL)フレームワークに続いて、DARLは元の状態-作用空間からマッピングされた潜在空間上の動的非依存判別器を学習する。
潜在空間は、ダイナミクスの最小情報を含むように学習される。
さらに、政策に対する差別者の依存を軽減するために、訓練中の差別者のアンサンブルとして報酬関数が表現される。
動的移動を伴う4つの MuJoCo タスクにおける DARL の評価を行った。
AIL法と比較した実験結果から、DARLは真の報酬とより整合した報酬を学習でき、より高い環境リターンを得ることができることが示された。
関連論文リスト
- Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution [48.92144929307152]
強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。
提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文 参考訳(メタデータ) (2023-02-01T06:25:46Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。