論文の概要: Primal Wasserstein Imitation Learning
- arxiv url: http://arxiv.org/abs/2006.04678v2
- Date: Wed, 17 Mar 2021 11:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:51:23.604060
- Title: Primal Wasserstein Imitation Learning
- Title(参考訳): 初歩的ワッサースタイン模倣学習
- Authors: Robert Dadashi, L\'eonard Hussenot, Matthieu Geist, Olivier Pietquin
- Abstract要約: 概念的にシンプルなアルゴリズムに基づく新しいImitation Learning (IL)法: Primal Wasserstein Imitation Learning (PWIL)を提案する。
エージェントインタラクションや環境とのエキスパートインタラクションの観点から,MuJoCoドメインのさまざまな連続制御タスクに関する専門家の振る舞いを,サンプルで効率的に再現できることが示される。
- 参考スコア(独自算出の注目度): 44.87651595571687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning (IL) methods seek to match the behavior of an agent with
that of an expert. In the present work, we propose a new IL method based on a
conceptually simple algorithm: Primal Wasserstein Imitation Learning (PWIL),
which ties to the primal form of the Wasserstein distance between the expert
and the agent state-action distributions. We present a reward function which is
derived offline, as opposed to recent adversarial IL algorithms that learn a
reward function through interactions with the environment, and which requires
little fine-tuning. We show that we can recover expert behavior on a variety of
continuous control tasks of the MuJoCo domain in a sample efficient manner in
terms of agent interactions and of expert interactions with the environment.
Finally, we show that the behavior of the agent we train matches the behavior
of the expert with the Wasserstein distance, rather than the commonly used
proxy of performance.
- Abstract(参考訳): 模倣学習(IL)法は,エージェントの行動と専門家の行動とを一致させようとする。
本研究では,PWIL(Primal Wasserstein Imitation Learning)という,概念的に単純なアルゴリズムに基づく新しいIL法を提案する。
環境とのインタラクションを通じて報酬関数を学習し,微調整をほとんど必要としない最近の敵ILアルゴリズムとは対照的に,オフラインで引き起こされる報酬関数を提案する。
エージェント間相互作用や環境とのエキスパート間相互作用の観点から,mujocoドメインのさまざまな連続的制御タスクにおいて,専門家の振る舞いを効果的に再現できることを示す。
最後に,我々が訓練しているエージェントの振る舞いが,一般的に使用されるパフォーマンスのプロキシではなく,専門家の振る舞いとワッサースタイン距離と一致することを示す。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching [111.78179839856293]
本稿では,学習者と専門的国家占有者の間の一次ワッサースタイン距離を最小化するために,プライマルワッサースタインDICEを提案する。
我々のフレームワークは SMODICE の一般化であり、$f$-divergence と Wasserstein の最小化を統一する最初の研究である。
論文 参考訳(メタデータ) (2023-11-02T15:41:57Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。