Fugu-MT 論文翻訳(概要): Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble

論文の概要: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble

arxiv url: http://arxiv.org/abs/2206.00238v1
Date: Wed, 1 Jun 2022 05:16:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 03:23:57.636478
Title: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble
Title（参考訳）: Dynamics-Agnostic Discriminator Ensemble によるトランスファタブル・リワード学習
Authors: Fan-Ming Luo, Xingchen Cao, Yang Yu
Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。この研究は、伝達可能な報酬関数を学習するための一般的なアプローチを提案する。
参考スコア（独自算出の注目度）: 4.36488705757229
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inverse reinforcement learning (IRL) recovers the underlying reward function from expert demonstrations. A generalizable reward function is even desired as it captures the fundamental motivation of the expert. However, classical IRL methods can only recover reward functions coupled with the training dynamics, thus are hard to generalize to a changed environment. Previous dynamics-agnostic reward learning methods have strict assumptions, such as that the reward function has to be state-only. This work proposes a general approach to learn transferable reward functions, Dynamics-Agnostic Discriminator-Ensemble Reward Learning (DARL). Following the adversarial imitation learning (AIL) framework, DARL learns a dynamics-agnostic discriminator on a latent space mapped from the original state-action space. The latent space is learned to contain the least information of the dynamics. Moreover, to reduce the reliance of the discriminator on policies, the reward function is represented as an ensemble of the discriminators during training. We assess DARL in four MuJoCo tasks with dynamics transfer. Empirical results compared with the state-of-the-art AIL methods show that DARL can learn a reward that is more consistent with the true reward, thus obtaining higher environment returns.
Abstract（参考訳）: 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。一般化可能な報酬関数は、専門家の基本的な動機を捉えているため、さらに望ましい。しかし、古典的IRL法は、トレーニング力学と結合した報酬関数のみを復元できるため、変化した環境に一般化することは困難である。従来の力学に依存しない報酬学習法は、報酬関数が状態のみであるような厳密な仮定を持つ。本研究では、伝達可能な報酬関数、DARL(Dynamics-Agnostic Discriminator-Ensemble Reward Learning)の学習方法を提案する。逆模倣学習(AIL)フレームワークに続いて、DARLは元の状態-作用空間からマッピングされた潜在空間上の動的非依存判別器を学習する。潜在空間は、ダイナミクスの最小情報を含むように学習される。さらに、政策に対する差別者の依存を軽減するために、訓練中の差別者のアンサンブルとして報酬関数が表現される。動的移動を伴う4つの MuJoCo タスクにおける DARL の評価を行った。 AIL法と比較した実験結果から、DARLは真の報酬とより整合した報酬を学習でき、より高い環境リターンを得ることができることが示された。

関連論文リスト

Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文参考訳（メタデータ） (2024-09-12T12:56:24Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文参考訳（メタデータ） (2023-02-09T17:16:29Z)
Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文参考訳（メタデータ） (2023-02-01T06:25:46Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文参考訳（メタデータ） (2022-03-28T21:17:36Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Curious Exploration and Return-based Memory Restoration for Deep Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文参考訳（メタデータ） (2021-05-02T16:01:34Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文参考訳（メタデータ） (2020-06-22T17:55:03Z)
oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-20T22:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。