論文の概要: Domain-Robust Visual Imitation Learning with Mutual Information
Constraints
- arxiv url: http://arxiv.org/abs/2103.05079v1
- Date: Mon, 8 Mar 2021 21:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 15:10:43.839675
- Title: Domain-Robust Visual Imitation Learning with Mutual Information
Constraints
- Title(参考訳): 相互情報制約を用いたドメイン・ロバスト視覚模倣学習
- Authors: Edoardo Cetin and Oya Celiktutan
- Abstract要約: Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human beings are able to understand objectives and learn by simply observing
others perform a task. Imitation learning methods aim to replicate such
capabilities, however, they generally depend on access to a full set of optimal
states and actions taken with the agent's actuators and from the agent's point
of view. In this paper, we introduce a new algorithm - called Disentangling
Generative Adversarial Imitation Learning (DisentanGAIL) - with the purpose of
bypassing such constraints. Our algorithm enables autonomous agents to learn
directly from high dimensional observations of an expert performing a task, by
making use of adversarial learning with a latent representation inside the
discriminator network. Such latent representation is regularized through mutual
information constraints to incentivize learning only features that encode
information about the completion levels of the task being demonstrated. This
allows to obtain a shared feature space to successfully perform imitation while
disregarding the differences between the expert's and the agent's domains.
Empirically, our algorithm is able to efficiently imitate in a diverse range of
control problems including balancing, manipulation and locomotive tasks, while
being robust to various domain differences in terms of both environment
appearance and agent embodiment.
- Abstract(参考訳): 人間は目的を理解し、単に他人を観察することで学習することができる。
模倣学習の方法は、そのような能力を複製することを目指していますが、一般的には、エージェントのアクチュエータとエージェントの視点から取られた最適な状態とアクションの完全なセットへのアクセスに依存します。
本稿では,このような制約を回避すべく,Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを提案する。
本アルゴリズムは,識別器ネットワーク内の潜在表現を用いた対角学習を用いて,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
このような潜在表現は、相互情報制約を通じて規則化され、示されるタスクの完了レベルに関する情報を符号化する特徴のみを学習にインセンティブ化する。
これにより、エキスパートとエージェントのドメインの違いを無視しながら、イミテーションを成功裏に実行するための共有機能空間を得ることができる。
実験により,本アルゴリズムは,バランスや操作,機関車の作業など,様々な制御問題において,環境の外観やエージェントの具体化の両面において,様々な領域の差異に頑健でありながら,効率よく模倣することができる。
関連論文リスト
- SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Proto-Value Networks: Scaling Representation Learning with Auxiliary
Tasks [33.98624423578388]
補助的なタスクは、深層強化学習エージェントによって学習された表現を改善する。
我々は、後継措置に基づく新しい補助業務のファミリーを導出する。
プロト値ネットワークは、確立されたアルゴリズムに匹敵する性能を得るために、リッチな特徴を生み出すことを示す。
論文 参考訳(メタデータ) (2023-04-25T04:25:08Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Learning with Style: Continual Semantic Segmentation Across Tasks and
Domains [25.137859989323537]
ドメイン適応とクラス増分学習はドメインとタスクの変数を別々に扱います。
我々は、入力空間とラベル空間のセマンティックシフトを考慮して、問題の両面に一緒に取り組みます。
提案手法は,タスクシフトとドメインシフトの両方で連続的なセマンティックセグメンテーションを扱うのに不十分であることを示す既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T13:24:34Z) - Learn what matters: cross-domain imitation learning with task-relevant
embeddings [77.34726150561087]
自律エージェントが、異なる環境や異なるエージェントなど、異なる領域のデモンストレーションからタスクを実行することを学習する方法について検討する。
我々は、追加のデモンストレーションやさらなるドメイン知識にアクセスすることなく、クロスドメインの模倣学習を可能にするスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-24T21:56:58Z) - Relevance-guided Unsupervised Discovery of Abilities with
Quality-Diversity Algorithms [1.827510863075184]
本稿では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。
我々は、ロボットが完全な感覚データに基づいて自律的にその能力を発見しなければならない、シミュレーションされたロボット環境に対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-04-21T00:29:38Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Learning Task-oriented Disentangled Representations for Unsupervised
Domain Adaptation [165.61511788237485]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインシフト問題に対処することを目的としている。
UDAのための動的タスク指向の非絡合ネットワーク(DTDN)を提案し,非絡合表現をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2020-07-27T01:21:18Z) - Self-Supervised Learning Across Domains [33.86614301708017]
本稿では,ドメイン間のオブジェクト認識の問題に対して,同様のアプローチを適用することを提案する。
モデルでは,教師付き方式でセマンティックラベルを学習し,同じ画像上の自己教師型信号から学習することで,データに対する理解を深める。
この二次的なタスクは、ネットワークが対象の形状、空間配向や部分相関といった概念を学ぶのに役立ち、分類タスクの正規化として機能する。
論文 参考訳(メタデータ) (2020-07-24T06:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。