論文の概要: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble
- arxiv url: http://arxiv.org/abs/2206.00238v1
- Date: Wed, 1 Jun 2022 05:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 03:23:57.636478
- Title: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble
- Title(参考訳): Dynamics-Agnostic Discriminator Ensemble によるトランスファタブル・リワード学習
- Authors: Fan-Ming Luo, Xingchen Cao, Yang Yu
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。
この研究は、伝達可能な報酬関数を学習するための一般的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.36488705757229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) recovers the underlying reward function
from expert demonstrations. A generalizable reward function is even desired as
it captures the fundamental motivation of the expert. However, classical IRL
methods can only recover reward functions coupled with the training dynamics,
thus are hard to generalize to a changed environment. Previous
dynamics-agnostic reward learning methods have strict assumptions, such as that
the reward function has to be state-only. This work proposes a general approach
to learn transferable reward functions, Dynamics-Agnostic
Discriminator-Ensemble Reward Learning (DARL). Following the adversarial
imitation learning (AIL) framework, DARL learns a dynamics-agnostic
discriminator on a latent space mapped from the original state-action space.
The latent space is learned to contain the least information of the dynamics.
Moreover, to reduce the reliance of the discriminator on policies, the reward
function is represented as an ensemble of the discriminators during training.
We assess DARL in four MuJoCo tasks with dynamics transfer. Empirical results
compared with the state-of-the-art AIL methods show that DARL can learn a
reward that is more consistent with the true reward, thus obtaining higher
environment returns.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。
一般化可能な報酬関数は、専門家の基本的な動機を捉えているため、さらに望ましい。
しかし、古典的IRL法は、トレーニング力学と結合した報酬関数のみを復元できるため、変化した環境に一般化することは困難である。
従来の力学に依存しない報酬学習法は、報酬関数が状態のみであるような厳密な仮定を持つ。
本研究では、伝達可能な報酬関数、DARL(Dynamics-Agnostic Discriminator-Ensemble Reward Learning)の学習方法を提案する。
逆模倣学習(AIL)フレームワークに続いて、DARLは元の状態-作用空間からマッピングされた潜在空間上の動的非依存判別器を学習する。
潜在空間は、ダイナミクスの最小情報を含むように学習される。
さらに、政策に対する差別者の依存を軽減するために、訓練中の差別者のアンサンブルとして報酬関数が表現される。
動的移動を伴う4つの MuJoCo タスクにおける DARL の評価を行った。
AIL法と比較した実験結果から、DARLは真の報酬とより整合した報酬を学習でき、より高い環境リターンを得ることができることが示された。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。
提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文 参考訳(メタデータ) (2023-02-01T06:25:46Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。