論文の概要: Policy Transfer across Visual and Dynamics Domain Gaps via Iterative
Grounding
- arxiv url: http://arxiv.org/abs/2107.00339v1
- Date: Thu, 1 Jul 2021 10:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:54:15.663975
- Title: Policy Transfer across Visual and Dynamics Domain Gaps via Iterative
Grounding
- Title(参考訳): 反復的接地による視覚的およびダイナミックなドメイン間隙を横断するポリシー伝達
- Authors: Grace Zhang, Linghan Zhong, Youngwoon Lee, Joseph J. Lim
- Abstract要約: ある環境から別の環境へポリシーを転送する能力は、効率的なロボット学習のための有望な道である。
以前のポリシー転送アプローチでは、大きなドメインギャップを処理できないか、一度にひとつのタイプのドメインギャップにしか対処できない。
我々は,IDAPTを反復的に「環境基盤化」した新しい政策伝達手法を提案する。
- 参考スコア(独自算出の注目度): 18.62507386252149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to transfer a policy from one environment to another is a
promising avenue for efficient robot learning in realistic settings where task
supervision is not available. This can allow us to take advantage of
environments well suited for training, such as simulators or laboratories, to
learn a policy for a real robot in a home or office. To succeed, such policy
transfer must overcome both the visual domain gap (e.g. different illumination
or background) and the dynamics domain gap (e.g. different robot calibration or
modelling error) between source and target environments. However, prior policy
transfer approaches either cannot handle a large domain gap or can only address
one type of domain gap at a time. In this paper, we propose a novel policy
transfer method with iterative "environment grounding", IDAPT, that alternates
between (1) directly minimizing both visual and dynamics domain gaps by
grounding the source environment in the target environment domains, and (2)
training a policy on the grounded source environment. This iterative training
progressively aligns the domains between the two environments and adapts the
policy to the target environment. Once trained, the policy can be directly
executed on the target environment. The empirical results on locomotion and
robotic manipulation tasks demonstrate that our approach can effectively
transfer a policy across visual and dynamics domain gaps with minimal
supervision and interaction with the target environment. Videos and code are
available at https://clvrai.com/idapt .
- Abstract(参考訳): ある環境から別の環境にポリシーを移す能力は、タスクの監督ができない現実的な環境で効率的なロボット学習に有望な道のりである。
これにより、シミュレータや研究室などのトレーニングに適した環境を利用して、自宅やオフィスで本物のロボットのポリシーを学ぶことができます。
成功させるためには、このような方針伝達は視覚領域のギャップ(例えば、)を克服しなければならない。
異なる照明や背景)とダイナミクス領域のギャップ(例えば、)
異なるロボットキャリブレーションまたはモデリングエラー) ソース環境とターゲット環境の間。
しかし、以前のポリシー転送アプローチは、大きなドメイン間隙を処理できないか、一度に1つのタイプのドメイン間隙しか処理できない。
本稿では,(1)対象の環境領域にソース環境を基盤として,視覚領域と動的領域のギャップを直接最小化すると同時に,(2)接地された環境におけるポリシーをトレーニングする,反復的「環境基盤化」による新しい政策伝達手法を提案する。
この反復トレーニングは、2つの環境間のドメインを段階的に調整し、ターゲット環境にポリシーを適用する。
トレーニングが完了すると、ポリシーはターゲット環境で直接実行される。
ロコモーションとロボット操作タスクの実証結果から,我々のアプローチは,視覚およびダイナミックな領域ギャップを横断するポリシを,最小限の監督と目標環境とのインタラクションで効果的に伝達できることを証明した。
ビデオとコードはhttps://clvrai.com/idapt.comで入手できる。
関連論文リスト
- xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing [21.37585797507323]
ドメイン間政策伝達手法は主に、ポリシー学習を容易にするために、ドメインの対応や修正を学習することを目的としている。
本稿では,クロスドメイントラジェクトリ適応のために特別に設計された拡散モデルを用いたクロスドメイントラジェクトリ・EDitingフレームワークを提案する。
提案するモデルアーキテクチャは,対象データ内の動的パターンだけでなく,状態,行動,報酬間の複雑な依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-13T10:07:28Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Gradient Regularized Contrastive Learning for Continual Domain
Adaptation [86.02012896014095]
本稿では,ラベル付きソースドメインと非ラベル付きターゲットドメインのシーケンスでモデルを提示する連続的なドメイン適応の問題について検討する。
障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。
Digits、DomainNet、Office-Caltechベンチマークの実験は、我々のアプローチの強力なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-03-23T04:10:42Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。