論文の概要: Policy Transfer across Visual and Dynamics Domain Gaps via Iterative
Grounding
- arxiv url: http://arxiv.org/abs/2107.00339v1
- Date: Thu, 1 Jul 2021 10:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:54:15.663975
- Title: Policy Transfer across Visual and Dynamics Domain Gaps via Iterative
Grounding
- Title(参考訳): 反復的接地による視覚的およびダイナミックなドメイン間隙を横断するポリシー伝達
- Authors: Grace Zhang, Linghan Zhong, Youngwoon Lee, Joseph J. Lim
- Abstract要約: ある環境から別の環境へポリシーを転送する能力は、効率的なロボット学習のための有望な道である。
以前のポリシー転送アプローチでは、大きなドメインギャップを処理できないか、一度にひとつのタイプのドメインギャップにしか対処できない。
我々は,IDAPTを反復的に「環境基盤化」した新しい政策伝達手法を提案する。
- 参考スコア(独自算出の注目度): 18.62507386252149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to transfer a policy from one environment to another is a
promising avenue for efficient robot learning in realistic settings where task
supervision is not available. This can allow us to take advantage of
environments well suited for training, such as simulators or laboratories, to
learn a policy for a real robot in a home or office. To succeed, such policy
transfer must overcome both the visual domain gap (e.g. different illumination
or background) and the dynamics domain gap (e.g. different robot calibration or
modelling error) between source and target environments. However, prior policy
transfer approaches either cannot handle a large domain gap or can only address
one type of domain gap at a time. In this paper, we propose a novel policy
transfer method with iterative "environment grounding", IDAPT, that alternates
between (1) directly minimizing both visual and dynamics domain gaps by
grounding the source environment in the target environment domains, and (2)
training a policy on the grounded source environment. This iterative training
progressively aligns the domains between the two environments and adapts the
policy to the target environment. Once trained, the policy can be directly
executed on the target environment. The empirical results on locomotion and
robotic manipulation tasks demonstrate that our approach can effectively
transfer a policy across visual and dynamics domain gaps with minimal
supervision and interaction with the target environment. Videos and code are
available at https://clvrai.com/idapt .
- Abstract(参考訳): ある環境から別の環境にポリシーを移す能力は、タスクの監督ができない現実的な環境で効率的なロボット学習に有望な道のりである。
これにより、シミュレータや研究室などのトレーニングに適した環境を利用して、自宅やオフィスで本物のロボットのポリシーを学ぶことができます。
成功させるためには、このような方針伝達は視覚領域のギャップ(例えば、)を克服しなければならない。
異なる照明や背景)とダイナミクス領域のギャップ(例えば、)
異なるロボットキャリブレーションまたはモデリングエラー) ソース環境とターゲット環境の間。
しかし、以前のポリシー転送アプローチは、大きなドメイン間隙を処理できないか、一度に1つのタイプのドメイン間隙しか処理できない。
本稿では,(1)対象の環境領域にソース環境を基盤として,視覚領域と動的領域のギャップを直接最小化すると同時に,(2)接地された環境におけるポリシーをトレーニングする,反復的「環境基盤化」による新しい政策伝達手法を提案する。
この反復トレーニングは、2つの環境間のドメインを段階的に調整し、ターゲット環境にポリシーを適用する。
トレーニングが完了すると、ポリシーはターゲット環境で直接実行される。
ロコモーションとロボット操作タスクの実証結果から,我々のアプローチは,視覚およびダイナミックな領域ギャップを横断するポリシを,最小限の監督と目標環境とのインタラクションで効果的に伝達できることを証明した。
ビデオとコードはhttps://clvrai.com/idapt.comで入手できる。
関連論文リスト
- Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Gradient Regularized Contrastive Learning for Continual Domain
Adaptation [86.02012896014095]
本稿では,ラベル付きソースドメインと非ラベル付きターゲットドメインのシーケンスでモデルを提示する連続的なドメイン適応の問題について検討する。
障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。
Digits、DomainNet、Office-Caltechベンチマークの実験は、我々のアプローチの強力なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-03-23T04:10:42Z) - Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining
and Consistency [93.89773386634717]
ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。
いくつかの目標ラベルが存在する場合、(回転予測による)自己スーパービジョンや整合正則化といった単純な手法が、適切な目標分類器を学習するための対角アライメントなしで有効であることを示す。
我々の事前学習と一貫性(PAC)アプローチは、この半教師付きドメイン適応タスクにおいて、複数のデータセットにまたがる複数の対向的なドメインアライメント手法を超越して、技術精度を達成することができる。
論文 参考訳(メタデータ) (2021-01-29T18:40:17Z) - ADAIL: Adaptive Adversarial Imitation Learning [11.270858993502705]
本稿では,動的に変化する環境間で伝達可能な適応型ポリシーを学習するための適応型適応型適応模倣学習(ADAIL)アルゴリズムを提案する。
これはロボット学習において重要な問題であり,1)報酬関数の取得が困難であること,2)ドメイン統計を対象とするさまざまなソースによる学習方針の展開が困難であること,3)動的に知られ制御される複数の環境における専門家によるデモンストレーションの収集が不可能であること,などが挙げられる。
論文 参考訳(メタデータ) (2020-08-23T06:11:00Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。