Fugu-MT 論文翻訳(概要): Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble

論文の概要: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble

arxiv url: http://arxiv.org/abs/2206.00238v2
Date: Wed, 26 Jun 2024 08:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 20:13:23.265632
Title: Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble
Title（参考訳）: Dynamics-Agnostic Discriminator Ensemble によるトランスファタブル・リワード学習
Authors: Fan-Ming Luo, Xingchen Cao, Rong-Jun Qin, Yang Yu,
Abstract要約: 専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
参考スコア（独自算出の注目度）: 8.857776147129464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recovering reward function from expert demonstrations is a fundamental problem in reinforcement learning. The recovered reward function captures the motivation of the expert. Agents can imitate experts by following these reward functions in their environment, which is known as apprentice learning. However, the agents may face environments different from the demonstrations, and therefore, desire transferable reward functions. Classical reward learning methods such as inverse reinforcement learning (IRL) or, equivalently, adversarial imitation learning (AIL), recover reward functions coupled with training dynamics, which are hard to be transferable. Previous dynamics-agnostic reward learning methods rely on assumptions such as that the reward function has to be state-only, restricting their applicability. In this work, we present a dynamics-agnostic discriminator-ensemble reward learning method (DARL) within the AIL framework, capable of learning both state-action and state-only reward functions. DARL achieves this by decoupling the reward function from training dynamics, employing a dynamics-agnostic discriminator on a latent space derived from the original state-action space. This latent space is optimized to minimize information on the dynamics. We moreover discover the policy-dependency issue of the AIL framework that reduces the transferability. DARL represents the reward function as an ensemble of discriminators during training to eliminate policy dependencies. Empirical studies on MuJoCo tasks with changed dynamics show that DARL better recovers the reward function and results in better imitation performance in transferred environments, handling both state-only and state-action reward scenarios.
Abstract（参考訳）: 専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。回復した報酬関数は、専門家のモチベーションを捉えます。エージェントは、彼らの環境でこれらの報酬関数に従うことで専門家を模倣することができる。しかし、エージェントはデモとは異なる環境に直面し、従って、移動可能な報酬関数を欲しがる。逆強化学習(IRL)や対人模倣学習(AIL)のような古典的な報酬学習手法は、伝達が難しい訓練力学と結合した報酬関数を回復する。従来の力学に依存しない報酬学習法は、報酬関数が状態のみでなければならないという仮定に依存し、適用性を制限する。本研究では, AIL フレームワーク内の動的非依存型識別器・アンサンブル報酬学習法 (DARL) について述べる。 DARLは、報酬関数をトレーニング力学から切り離し、元の状態-作用空間から派生した潜在空間上の動的非依存判別器を使用する。この潜在空間は、ダイナミクスに関する情報を最小限に抑えるために最適化されている。さらに、転送可能性を低減するAILフレームワークのポリシー依存性の問題も発見します。 DARLは、報酬関数を、政策依存を取り除くための訓練中の差別者の集まりとして表現する。 MuJoCoタスクの動的変更による実証的研究は、DARLが報酬関数をよりよく回復し、転送された環境における模倣性能が向上し、状態のみの報酬シナリオと状態アクションの報酬シナリオの両方を扱うことを示している。

関連論文リスト

Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文参考訳（メタデータ） (2024-09-12T12:56:24Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文参考訳（メタデータ） (2023-02-09T17:16:29Z)
Internally Rewarded Reinforcement Learning [22.01249652558878]
政策学習の報奨信号が内部報酬モデルによって生成される強化学習のクラスについて検討する。提案した報奨関数は,報奨音の影響を低減し,トレーニング過程を一定に安定化させることができることを示す。
論文参考訳（メタデータ） (2023-02-01T06:25:46Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文参考訳（メタデータ） (2022-03-28T21:17:36Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Curious Exploration and Return-based Memory Restoration for Deep Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文参考訳（メタデータ） (2021-05-02T16:01:34Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文参考訳（メタデータ） (2020-06-22T17:55:03Z)
oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-20T22:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。