論文の概要: A Framework for Few-Shot Policy Transfer through Observation Mapping and
Behavior Cloning
- arxiv url: http://arxiv.org/abs/2310.08836v1
- Date: Fri, 13 Oct 2023 03:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 14:31:20.308300
- Title: A Framework for Few-Shot Policy Transfer through Observation Mapping and
Behavior Cloning
- Title(参考訳): 観察マッピングと行動クローニングによる下地政策伝達のためのフレームワーク
- Authors: Yash Shukla, Bharat Kesari, Shivam Goel, Robert Wright and Jivko
Sinapov
- Abstract要約: 本研究は,2つの領域間のFew-Shot Policy Transferを観察マッピングと振舞いのクローンによって実現するためのフレームワークを提案する。
我々は、GAN(Generative Adversarial Networks)とサイクル整合性損失を用いて、ソースとターゲットドメイン間の観測をマッピングし、その後、この学習されたマッピングを使用して、成功したソースタスクの動作ポリシーをターゲットドメインにクローンする。
- 参考スコア(独自算出の注目度): 6.048526012097133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in Reinforcement Learning for robotics applications,
many tasks remain prohibitively difficult to solve because of the expensive
interaction cost. Transfer learning helps reduce the training time in the
target domain by transferring knowledge learned in a source domain. Sim2Real
transfer helps transfer knowledge from a simulated robotic domain to a physical
target domain. Knowledge transfer reduces the time required to train a task in
the physical world, where the cost of interactions is high. However, most
existing approaches assume exact correspondence in the task structure and the
physical properties of the two domains. This work proposes a framework for
Few-Shot Policy Transfer between two domains through Observation Mapping and
Behavior Cloning. We use Generative Adversarial Networks (GANs) along with a
cycle-consistency loss to map the observations between the source and target
domains and later use this learned mapping to clone the successful source task
behavior policy to the target domain. We observe successful behavior policy
transfer with limited target task interactions and in cases where the source
and target task are semantically dissimilar.
- Abstract(参考訳): ロボット応用のための強化学習の最近の進歩にもかかわらず、高価な相互作用コストのため、多くのタスクはいまだに解決が困難である。
転送学習は、ソースドメインで学んだ知識を転送することで、ターゲットドメインのトレーニング時間を短縮する。
Sim2Real転送は、シミュレーションされたロボットドメインから物理的なターゲットドメインへの知識伝達を支援する。
知識伝達は、相互作用のコストが高い物理世界でタスクを訓練するのに要する時間を削減します。
しかし、既存のアプローチの多くは、タスク構造と2つのドメインの物理的性質の正確な対応を前提としている。
本研究は,2つの領域間のFew-Shot Policy Transferを観察マッピングと振舞いのクローンによって行うフレームワークを提案する。
我々はgans(generative adversarial network)と、ソースドメインとターゲットドメインの間の観測結果をマッピングするサイクルコンシスタンス損失を使い、後に学習したマッピングを使用して、成功したソースタスクの振る舞いポリシーをターゲットドメインにクローンします。
我々は,限られた目標タスクの相互作用を伴う行動方針の伝達と,ソースと目標タスクが意味的に異なる場合を観察する。
関連論文リスト
- Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Transfer Reinforcement Learning for Differing Action Spaces via
Q-Network Representations [2.0625936401496237]
本稿では、離散的かつ連続的なアクション空間を持つ領域に適用可能な、ソース埋め込み類似性に基づく報酬形成手法を提案する。
提案手法の有効性は,Acrobot-v1ドメインとPendulum-v0ドメインの制限された動作空間への移動によって評価される。
論文 参考訳(メタデータ) (2022-02-05T00:14:05Z) - Omni-Training for Data-Efficient Deep Learning [80.28715182095975]
近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。
事前訓練とメタトレーニングの厳密な組み合わせは、どちらの種類のトランスファー可能性も達成できない。
このことが提案されているOmni-Trainingフレームワークを,データ効率のよいディープラーニングに動機付けている。
論文 参考訳(メタデータ) (2021-10-14T16:30:36Z) - Self-Taught Cross-Domain Few-Shot Learning with Weakly Supervised Object
Localization and Task-Decomposition [84.24343796075316]
本稿では,クロスドメインなFew-Shot学習のためのタスク拡張分解フレームワークを提案する。
提案した自己学習(ST)アプローチは,タスク指向距離空間を構築することで,非目標誘導の問題を軽減する。
CUB、カーズ、Places、Planae、CropDieases、EuroSAT、ISIC、ChestXの8つのドメインを含むクロスドメイン環境で実験を行う。
論文 参考訳(メタデータ) (2021-09-03T04:23:07Z) - Multilevel Knowledge Transfer for Cross-Domain Object Detection [26.105283273950942]
ドメインシフトは、特定のドメイン(ソース)でトレーニングされたモデルが、異なるドメイン(ターゲット)のサンプルに露出しても、うまく動作しない、よく知られた問題である。
本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。
私たちのアプローチは、ソースとターゲットドメイン間のドメインシフトを徐々に削除することに依存しています。
論文 参考訳(メタデータ) (2021-08-02T15:24:40Z) - Disentangling Transfer and Interference in Multi-Domain Learning [53.34444188552444]
マルチドメイン学習において,干渉や知識伝達が発生する状況について検討する。
干渉と転送を分離する新しいメトリクスを提案し、実験プロトコルをセットアップする。
我々は、CIFAR-100、MiniPlaces、Tiny-ImageNetデータセットでこの結果を示す。
論文 参考訳(メタデータ) (2021-07-02T01:30:36Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Learning Task-oriented Disentangled Representations for Unsupervised
Domain Adaptation [165.61511788237485]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインシフト問題に対処することを目的としている。
UDAのための動的タスク指向の非絡合ネットワーク(DTDN)を提案し,非絡合表現をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2020-07-27T01:21:18Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。