論文の概要: Latent Policies for Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2206.11299v1
- Date: Wed, 22 Jun 2022 18:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 04:10:43.494238
- Title: Latent Policies for Adversarial Imitation Learning
- Title(参考訳): 敵対的模倣学習のための潜在政策
- Authors: Tianyu Wang, Nikhil Karnwal, Nikolay Atanasov
- Abstract要約: 本稿では,専門家によるデモンストレーションからロボットの移動と操作の学習について考察する。
GAIL(Generative Adversarial mimicion Learning)は、エージェント遷移と専門家を区別する判別器を訓練し、次に、識別器出力によって定義された報酬を使用してエージェントのポリシー生成を最適化する。
この研究の重要な洞察は、適切な潜在タスク空間で模倣学習を行うことで、高次元問題に挑戦してもトレーニングプロセスを安定させるということである。
- 参考スコア(独自算出の注目度): 21.105328282702885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers learning robot locomotion and manipulation tasks from
expert demonstrations. Generative adversarial imitation learning (GAIL) trains
a discriminator that distinguishes expert from agent transitions, and in turn
use a reward defined by the discriminator output to optimize a policy generator
for the agent. This generative adversarial training approach is very powerful
but depends on a delicate balance between the discriminator and the generator
training. In high-dimensional problems, the discriminator training may easily
overfit or exploit associations with task-irrelevant features for transition
classification. A key insight of this work is that performing imitation
learning in a suitable latent task space makes the training process stable,
even in challenging high-dimensional problems. We use an action encoder-decoder
model to obtain a low-dimensional latent action space and train a LAtent Policy
using Adversarial imitation Learning (LAPAL). The encoder-decoder model can be
trained offline from state-action pairs to obtain a task-agnostic latent action
representation or online, simultaneously with the discriminator and generator
training, to obtain a task-aware latent action representation. We demonstrate
that LAPAL training is stable, with near-monotonic performance improvement, and
achieves expert performance in most locomotion and manipulation tasks, while a
GAIL baseline converges slower and does not achieve expert performance in
high-dimensional environments.
- Abstract(参考訳): 本稿では,ロボットのロコモーションと操作タスクの学習について検討する。
GAIL(Generative Adversarial mimicion Learning)は、エージェント遷移から専門家を区別する判別器を訓練し、その判別器出力によって定義された報酬を用いてエージェントのポリシー生成を最適化する。
この生成的逆行訓練アプローチは非常に強力であるが、判別器とジェネレータの微妙なバランスに依存する。
高次元問題では、判別器の訓練は容易に過度に適合したり、移行分類のためのタスク非関連の特徴と結びついたりすることができる。
この研究の重要な洞察は、適切な潜在タスク空間で模倣学習を行うことで、高次元問題に挑戦してもトレーニングプロセスが安定するということである。
我々は,行動エンコーダ・デコーダモデルを用いて,低次元の潜在行動空間を取得し,適応的模倣学習(LAPAL)を用いてLAtent Policyを訓練する。
エンコーダ・デコーダモデルは、状態-動作ペアからオフラインでトレーニングし、タスク非依存の潜在動作表現又はオンライン、および識別器およびジェネレータ訓練を同時に取得し、タスク対応潜在動作表現を得る。
我々は,ラダルトレーニングが安定であり,ほぼモノトニックな性能改善を伴い,ほとんどのロコモーションや操作タスクにおいてエキスパートパフォーマンスを達成し,gailベースラインは収束が遅く,高次元環境ではエキスパートパフォーマンスを達成できないことを示す。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - TAVAT: Token-Aware Virtual Adversarial Training for Language
Understanding [55.16953347580948]
グラディエントベースの敵トレーニングは、ニューラルネットワークの堅牢性向上に広く利用されている。
埋め込み空間が離散であるため、自然言語処理タスクに容易に適応することはできない。
微粒な摂動を創り出すためのトークン認識仮想アドリアリトレーニング法を提案する。
論文 参考訳(メタデータ) (2020-04-30T02:03:24Z) - Constrained-Space Optimization and Reinforcement Learning for Complex
Tasks [42.648636742651185]
Demonstrationからの学習は、オペレータ操作スキルをロボットに転送するためにますます利用されている。
本稿では,複雑なタスクを管理するための制約付き空間最適化と強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T21:50:11Z) - ACNMP: Skill Transfer and Task Extrapolation through Learning from
Demonstration and Reinforcement Learning via Representation Sharing [5.06461227260756]
ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。
本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
論文 参考訳(メタデータ) (2020-03-25T11:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。