論文の概要: Auto-Encoding Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2206.11004v1
- Date: Wed, 22 Jun 2022 12:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:29:12.447447
- Title: Auto-Encoding Adversarial Imitation Learning
- Title(参考訳): 敵対的模倣学習の自動エンコーディング
- Authors: Kaifeng Zhang, Rui Zhao, Ziming Zhang, Yang Gao
- Abstract要約: AIL(Adversarial Imitation Learning)は、環境からの報酬信号にアクセスせずに自動ポリシー取得に光を当てる。
AEAILは、デモンストレーションから専門家ポリシーを誘導するために、オートエンコーダの再構成エラーを報奨信号として利用する。
AEAILは、専門家によるデモンストレーションが騒々しいときに、はるかに優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 23.544014883238685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) provides a powerful framework for
decision-making, but its application in practice often requires a carefully
designed reward function. Adversarial Imitation Learning (AIL) sheds light on
automatic policy acquisition without access to the reward signal from the
environment. In this work, we propose Auto-Encoding Adversarial Imitation
Learning (AEAIL), a robust and scalable AIL framework. To induce expert
policies from demonstrations, AEAIL utilizes the reconstruction error of an
auto-encoder as a reward signal, which provides more information for optimizing
policies than the prior discriminator-based ones. Subsequently, we use the
derived objective functions to train the auto-encoder and the agent policy.
Experiments show that our AEAIL performs superior compared to state-of-the-art
methods in the MuJoCo environments. More importantly, AEAIL shows much better
robustness when the expert demonstrations are noisy. Specifically, our method
achieves $16.4\%$ and $47.2\%$ relative improvement overall compared to the
best baseline FAIRL and PWIL on clean and noisy expert data, respectively.
Video results, open-source code and dataset are available in
https://sites.google.com/view/auto-encoding-imitation.
- Abstract(参考訳): 強化学習(rl)は意思決定のための強力なフレームワークを提供するが、実際には注意深く設計された報酬機能を必要とすることが多い。
AIL(Adversarial Imitation Learning)は、環境からの報酬信号にアクセスせずに自動ポリシー取得に光を当てる。
本稿では,堅牢でスケーラブルな AIL フレームワークである Auto-Encoding Adversarial Imitation Learning (AEAIL) を提案する。
AEAILは、実証から専門家ポリシーを誘導するため、オートエンコーダの再構成エラーを報奨信号として利用し、従来の差別者ベースのものよりも、ポリシーを最適化するための情報を提供する。
その後、導出した目的関数を用いてオートエンコーダとエージェントポリシーを訓練する。
実験の結果,AEAIL は MuJoCo 環境の最先端手法に比べて優れていた。
さらに重要なのは、AEAILは、専門家によるデモが騒々しいときに、はるかに優れた堅牢性を示します。
具体的には, FAIRL と PWIL のそれぞれがクリーンかつノイズの多い専門家データに対して, 総合的に16.4\%と47.2\%の相対的改善を達成している。
ビデオ結果、オープンソースコード、データセットはhttps://sites.google.com/view/auto-encoding-imitationで確認できる。
関連論文リスト
- CuRLA: Curriculum Learning Based Deep Reinforcement Learning for Autonomous Driving [1.188383832081829]
深層強化学習(DRL)エージェントは、経験から学び、報酬を最大化する。
本稿では,DRLとカリキュラム学習を組み合わせた自動運転手法を提案する。
論文 参考訳(メタデータ) (2025-01-09T05:45:03Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。
我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。
マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-19T17:39:20Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Increasing the Efficiency of Policy Learning for Autonomous Vehicles by
Multi-Task Representation Learning [17.825845543579195]
関連する意味的要因の知識を活用し,環境の低次元かつ豊かな潜在表現を学ぶことを提案する。
また,ダウンストリームポリシの入力として,学習した潜在表現に加えて,ハザード信号を提案する。
特に、提案された表現学習とハザード信号は、ベースラインメソッドよりもパフォーマンスの向上とデータの削減により、学習の学習を迅速に強化するのに役立ちます。
論文 参考訳(メタデータ) (2021-03-26T20:16:59Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。