論文の概要: Cross-domain Imitation from Observations
- arxiv url: http://arxiv.org/abs/2105.10037v1
- Date: Thu, 20 May 2021 21:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 11:15:40.829495
- Title: Cross-domain Imitation from Observations
- Title(参考訳): 観測からのクロスドメイン模倣
- Authors: Dripta S. Raychaudhuri, Sujoy Paul, Jeroen van Baar, Amit K.
Roy-Chowdhury
- Abstract要約: 模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
このようなドメイン間の対応を学習するための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.669343548588294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning seeks to circumvent the difficulty in designing proper
reward functions for training agents by utilizing expert behavior. With
environments modeled as Markov Decision Processes (MDP), most of the existing
imitation algorithms are contingent on the availability of expert
demonstrations in the same MDP as the one in which a new imitation policy is to
be learned. In this paper, we study the problem of how to imitate tasks when
there exist discrepancies between the expert and agent MDP. These discrepancies
across domains could include differing dynamics, viewpoint, or morphology; we
present a novel framework to learn correspondences across such domains.
Importantly, in contrast to prior works, we use unpaired and unaligned
trajectories containing only states in the expert domain, to learn this
correspondence. We utilize a cycle-consistency constraint on both the state
space and a domain agnostic latent space to do this. In addition, we enforce
consistency on the temporal position of states via a normalized position
estimator function, to align the trajectories across the two domains. Once this
correspondence is found, we can directly transfer the demonstrations on one
domain to the other and use it for imitation. Experiments across a wide variety
of challenging domains demonstrate the efficacy of our approach.
- Abstract(参考訳): 模擬学習は、専門家の行動を利用して訓練エージェントに適切な報酬関数を設計することの難しさを回避しようとする。
Markov Decision Processes (MDP) としてモデル化された環境では、既存の模倣アルゴリズムのほとんどは、新しい模倣ポリシーを学習するのと同じMDPで専門家によるデモンストレーションが利用可能になっている。
本稿では,専門家とエージェントMDPの相違点が存在する場合に,タスクを模倣する方法の問題について検討する。
これらのドメイン間の相違は、ダイナミクス、視点、形態の異なるものを含む可能性があり、これらのドメイン間の対応を学ぶための新しい枠組みを提案する。
重要なことは、先行研究とは対照的に、専門家ドメイン内の状態のみを含む未ペアかつ非整合軌跡を用いて、この対応を学習することである。
我々は、状態空間とドメインに依存しない潜在空間の両方にサイクル整合性制約を適用する。
さらに,正規化された位置推定関数を用いて状態の時間的位置の一貫性を強制し,二つの領域をまたいだ軌道を整列する。
この対応が見つかると、あるドメインのデモを直接他のドメインに転送し、模倣に使用することができる。
様々な挑戦領域にわたる実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- Cross-Domain Policy Transfer by Representation Alignment via Multi-Domain Behavioral Cloning [13.674493608667627]
本稿では、ドメイン間の共有潜在表現と、その上に共通の抽象ポリシーを学習する、ドメイン間ポリシー転送のためのシンプルなアプローチを提案する。
提案手法は,プロキシタスクの不整合軌道上でのマルチドメイン動作のクローン化と,ドメイン間のアライメントを促進するために,最大平均不整合(MMD)を正規化用語として利用する。
論文 参考訳(メタデータ) (2024-07-24T00:13:00Z) - Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - Context-aware Domain Adaptation for Time Series Anomaly Detection [69.3488037353497]
時系列異常検出は、幅広い現実世界の応用において難しい課題である。
近年,類似分野の知識を活用するため,時系列領域適応への取り組みが進められている。
本研究では,コンテキストサンプリングと異常検出を併用した共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-15T02:28:58Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Learn what matters: cross-domain imitation learning with task-relevant
embeddings [77.34726150561087]
自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。
我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスすることなく、クロスドメインの模倣学習を可能にするスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T21:56:58Z) - Transfer Reinforcement Learning for Differing Action Spaces via
Q-Network Representations [2.0625936401496237]
本稿では、離散的かつ連続的なアクション空間を持つ領域に適用可能な、ソース埋め込み類似性に基づく報酬形成手法を提案する。
提案手法の有効性は,Acrobot-v1ドメインとPendulum-v0ドメインの制限された動作空間への移動によって評価される。
論文 参考訳(メタデータ) (2022-02-05T00:14:05Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - Continuous Domain Adaptation with Variational Domain-Agnostic Feature
Replay [78.7472257594881]
非定常環境での学習は、機械学習における最大の課題の1つだ。
非定常性はタスクドリフトまたはドメインドリフトによって引き起こされる。
本稿では,3つのコンポーネントから構成されるアプローチである変分ドメインに依存しない特徴リプレイを提案する。
論文 参考訳(メタデータ) (2020-03-09T19:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。