論文の概要: ADAIL: Adaptive Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2008.12647v1
- Date: Sun, 23 Aug 2020 06:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:35:24.699612
- Title: ADAIL: Adaptive Adversarial Imitation Learning
- Title(参考訳): ADAIL: Adaptive Adversarial Imitation Learning
- Authors: Yiren Lu, Jonathan Tompson
- Abstract要約: 本稿では,動的に変化する環境間で伝達可能な適応型ポリシーを学習するための適応型適応型適応模倣学習(ADAIL)アルゴリズムを提案する。
これはロボット学習において重要な問題であり,1)報酬関数の取得が困難であること,2)ドメイン統計を対象とするさまざまなソースによる学習方針の展開が困難であること,3)動的に知られ制御される複数の環境における専門家によるデモンストレーションの収集が不可能であること,などが挙げられる。
- 参考スコア(独自算出の注目度): 11.270858993502705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the ADaptive Adversarial Imitation Learning (ADAIL) algorithm for
learning adaptive policies that can be transferred between environments of
varying dynamics, by imitating a small number of demonstrations collected from
a single source domain. This is an important problem in robotic learning
because in real world scenarios 1) reward functions are hard to obtain, 2)
learned policies from one domain are difficult to deploy in another due to
varying source to target domain statistics, 3) collecting expert demonstrations
in multiple environments where the dynamics are known and controlled is often
infeasible. We address these constraints by building upon recent advances in
adversarial imitation learning; we condition our policy on a learned dynamics
embedding and we employ a domain-adversarial loss to learn a dynamics-invariant
discriminator. The effectiveness of our method is demonstrated on simulated
control tasks with varying environment dynamics and the learned adaptive agent
outperforms several recent baselines.
- Abstract(参考訳): 本稿では,1つのソースドメインから収集した少数のデモを模倣して,異なるダイナミクスの環境間で伝達可能な適応ポリシーを学習するための適応型adversarial imitation learning(adail)アルゴリズムを提案する。
これはロボット学習の重要な問題です なぜなら現実のシナリオでは
1)報酬関数の取得は困難である。
2) 対象とするドメイン統計のソースが異なるため,あるドメインから学習したポリシを別のドメインにデプロイすることは困難である。
3) ダイナミクスが知られ制御されている複数の環境でのエキスパートデモの収集は、しばしば実現不可能である。
我々は,近年の対人模倣学習の進歩を基盤として,この制約に対処し,学習力学の埋め込みにポリシーを定め,ドメイン対逆損失を用いて動的不変判別器を学習する。
本手法の有効性は, 環境動態の異なるシミュレーション制御タスクにおいて実証され, 学習適応剤は近年のベースラインよりも優れている。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Learn what matters: cross-domain imitation learning with task-relevant
embeddings [77.34726150561087]
自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。
我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスすることなく、クロスドメインの模倣学習を可能にするスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T21:56:58Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Meta Learning on a Sequence of Imbalanced Domains with Difficulty
Awareness [6.648670454325191]
現在のメタ学習アルゴリズムにまたがる典型的な設定は、メタトレーニング中に定常的なタスク分布を仮定する。
タスク分散とドメインラベルが本質的に利用できないような現実的なシナリオを考察する。
本稿では,ドメイン変更検出のためのカーネルベースの手法と,メモリ管理の難易度を考慮した機構を提案する。
論文 参考訳(メタデータ) (2021-09-29T00:53:09Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning Reactive and Predictive Differentiable Controllers for
Switching Linear Dynamical Models [7.653542219337937]
専門家による実証から複合ダイナミクス行動を学習するためのフレームワークを提示する。
システムダイナミクスの近接近似としてスイッチング条件にエンコードされた接点を持つスイッチング線形ダイナミクスモデルを学ぶ。
次に、データ効率のよい制御学習のための微分可能なポリシークラスとして離散時間LQRを使用し、制御戦略を開発する。
論文 参考訳(メタデータ) (2021-03-26T04:40:24Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。