論文の概要: Cross Domain Policy Transfer with Effect Cycle-Consistency
- arxiv url: http://arxiv.org/abs/2403.02018v1
- Date: Mon, 4 Mar 2024 13:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:48:54.341616
- Title: Cross Domain Policy Transfer with Effect Cycle-Consistency
- Title(参考訳): エフェクトサイクル一貫性を持つクロスドメイン政策移行
- Authors: Ruiqi Zhu, Tianhong Dai, Oya Celiktutan
- Abstract要約: 深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
- 参考スコア(独自算出の注目度): 3.3213136251955815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a robotic policy from scratch using deep reinforcement learning
methods can be prohibitively expensive due to sample inefficiency. To address
this challenge, transferring policies trained in the source domain to the
target domain becomes an attractive paradigm. Previous research has typically
focused on domains with similar state and action spaces but differing in other
aspects. In this paper, our primary focus lies in domains with different state
and action spaces, which has broader practical implications, i.e. transfer the
policy from robot A to robot B. Unlike prior methods that rely on paired data,
we propose a novel approach for learning the mapping functions between state
and action spaces across domains using unpaired data. We propose effect cycle
consistency, which aligns the effects of transitions across two domains through
a symmetrical optimization structure for learning these mapping functions. Once
the mapping functions are learned, we can seamlessly transfer the policy from
the source domain to the target domain. Our approach has been tested on three
locomotion tasks and two robotic manipulation tasks. The empirical results
demonstrate that our method can reduce alignment errors significantly and
achieve better performance compared to the state-of-the-art method.
- Abstract(参考訳): 深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
この課題に対処するため、ソースドメインでトレーニングされたポリシーをターゲットドメインに移すことは魅力的なパラダイムになります。
従来の研究は、状態と行動空間が似ているが、他の面で異なる領域に焦点を合わせてきた。
本稿では,ロボットAからロボットBへポリシーを移すという,より広範な実践的な意味を持つ状態空間と行動空間を持つ領域に主眼を置き,ペアデータに依存する従来の手法とは異なり,未ペアデータを用いて状態空間と行動空間間のマッピング関数を学習するための新しいアプローチを提案する。
本稿では、これらの写像関数を学習するための対称最適化構造を通して、2つの領域間の遷移の効果を整合させる効果サイクル整合性を提案する。
一度マッピング関数が学習されると、ポリシーをソースドメインからターゲットドメインにシームレスに転送できます。
提案手法は3つのロコモーションタスクと2つのロボット操作タスクでテストされている。
実験結果から,本手法はアライメント誤差を大幅に低減し,最先端手法よりも優れた性能が得られることが示された。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning [46.08671291758573]
クロスドメインオフライン強化学習は、ターゲットドメインのデータ要求を軽減するために、さまざまなトランジションダイナミクスを備えたソースドメインデータを活用する。
既存の手法は、ペア化されたドメインの転送可能性の仮定に依存しながら、ドメイン分類器を介してダイナミックスギャップを測定することでこの問題に対処する。
本稿では,異なる領域からの遷移をサンプリングすることで,対照的な目的によって表現が学習される領域ギャップを測定するための新しい表現ベースアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-10T02:21:42Z) - A Framework for Few-Shot Policy Transfer through Observation Mapping and
Behavior Cloning [6.048526012097133]
本研究は,2つの領域間のFew-Shot Policy Transferを観察マッピングと振舞いのクローンによって実現するためのフレームワークを提案する。
我々は、GAN(Generative Adversarial Networks)とサイクル整合性損失を用いて、ソースとターゲットドメイン間の観測をマッピングし、その後、この学習されたマッピングを使用して、成功したソースタスクの動作ポリシーをターゲットドメインにクローンする。
論文 参考訳(メタデータ) (2023-10-13T03:15:42Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Cross-domain Imitation from Observations [50.669343548588294]
模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T21:08:25Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Gradient Regularized Contrastive Learning for Continual Domain
Adaptation [86.02012896014095]
本稿では,ラベル付きソースドメインと非ラベル付きターゲットドメインのシーケンスでモデルを提示する連続的なドメイン適応の問題について検討する。
障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。
Digits、DomainNet、Office-Caltechベンチマークの実験は、我々のアプローチの強力なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-03-23T04:10:42Z) - Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining
and Consistency [93.89773386634717]
ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。
いくつかの目標ラベルが存在する場合、(回転予測による)自己スーパービジョンや整合正則化といった単純な手法が、適切な目標分類器を学習するための対角アライメントなしで有効であることを示す。
我々の事前学習と一貫性(PAC)アプローチは、この半教師付きドメイン適応タスクにおいて、複数のデータセットにまたがる複数の対向的なドメインアライメント手法を超越して、技術精度を達成することができる。
論文 参考訳(メタデータ) (2021-01-29T18:40:17Z) - Missing-Class-Robust Domain Adaptation by Unilateral Alignment for Fault
Diagnosis [3.786700931138978]
ドメイン適応は、ソースドメインの学習した知識を活用し、それをターゲットドメインに転送することで、モデルの性能を改善することを目的としています。
近年, 対象領域とソース領域の分散シフトを軽減するために, ドメイン逆法が特に成功している。
本稿では,ドメイン逆数法の性能がトレーニング中に不完全なターゲットラベル空間に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2020-01-07T13:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。