論文の概要: Visual Transfer for Reinforcement Learning via Wasserstein Domain
Confusion
- arxiv url: http://arxiv.org/abs/2006.03465v1
- Date: Thu, 4 Jun 2020 16:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:32:44.056709
- Title: Visual Transfer for Reinforcement Learning via Wasserstein Domain
Confusion
- Title(参考訳): Wasserstein Domain Confusionによる強化学習のための視覚伝達
- Authors: Josh Roy, George Konidaris
- Abstract要約: 本稿では,強化学習における視覚伝達のための新しいアルゴリズムであるWAPPOについて紹介する。
WAPPOは、ソースとターゲットドメインからのフィーチャの分布の間のWasserstein-1距離を近似し、最小化する。
- 参考スコア(独自算出の注目度): 18.33856386905306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Wasserstein Adversarial Proximal Policy Optimization (WAPPO), a
novel algorithm for visual transfer in Reinforcement Learning that explicitly
learns to align the distributions of extracted features between a source and
target task. WAPPO approximates and minimizes the Wasserstein-1 distance
between the distributions of features from source and target domains via a
novel Wasserstein Confusion objective. WAPPO outperforms the prior
state-of-the-art in visual transfer and successfully transfers policies across
Visual Cartpole and two instantiations of 16 OpenAI Procgen environments.
- Abstract(参考訳): 強化学習における視覚伝達のための新しいアルゴリズムであるwasserstein adversarial proximal policy optimization (wappo)を提案する。
WAPPOは、Wasserstein Confusionの新たな目的を通じて、ソースとターゲットドメインからのフィーチャの分布間のWasserstein-1距離を近似し、最小化する。
WAPPOは、ビジュアルトランスファーにおけるこれまでの最先端を上回り、Visual Cartpoleと16 OpenAI Procgen環境の2つのインスタンス化によるポリシの転送に成功した。
関連論文リスト
- Adaptive Semantic Consistency for Cross-domain Few-shot Classification [27.176106714652327]
クロスドメイン・ショット分類(CD-FSC)は、いくつかのサンプルを用いて新規なターゲットクラスを特定することを目的としている。
本稿では,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性フレームワークを提案する。
提案したASCは、ソースドメインの知識を明示的に伝達することで、モデルがターゲットドメインに過度に適合しないようにする。
論文 参考訳(メタデータ) (2023-08-01T15:37:19Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z) - Domain Attention Consistency for Multi-Source Domain Adaptation [100.25573559447551]
主な設計は、伝達可能な特徴(属性)を識別することを目的とした機能チャネルアテンションモジュールである。
3つのMSDAベンチマーク実験により、DAC-Netは、それらすべてに対して、新たなパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2021-11-06T15:56:53Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Open Set Domain Adaptation using Optimal Transport [8.076841611508486]
本稿では,ソース分布からターゲット分布へのマッピングを行う2段階の最適輸送手法を提案する。
最初のステップは、最適なトランスポートプランを使用して、これらの新しいクラスから発行されたサンプルを拒否することを目的としている。
2番目のステップは、最適な輸送問題として、目標(クラス比)シフトをまだ解決する。
論文 参考訳(メタデータ) (2020-10-02T15:20:05Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Distant Transfer Learning via Deep Random Walk [7.957823585750222]
本稿では,DeEp Random Walk basEd distaNt Transfer (DERWENT) 法を提案する。
データグラフ上のランダムウォーク手法によって同定されたシーケンスに基づいて、提案したDERWENTモデルは、類似した配列内の隣接データポイントを強制する。
いくつかのベンチマークデータセットに関する実証研究は、提案したDERWENTアルゴリズムが最先端の性能をもたらすことを示した。
論文 参考訳(メタデータ) (2020-06-13T11:31:24Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。