論文の概要: Online Prototype Alignment for Few-shot Policy Transfer
- arxiv url: http://arxiv.org/abs/2306.07307v1
- Date: Mon, 12 Jun 2023 11:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:15:58.340155
- Title: Online Prototype Alignment for Few-shot Policy Transfer
- Title(参考訳): ファウショット政策伝達のためのオンラインプロトタイプアライメント
- Authors: Qi Yi, Rui Zhang, Shaohui Peng, Jiaming Guo, Yunkai Gao, Kaizhao Yuan,
Ruizhi Chen, Siming Lan, Xing Hu, Zidong Du, Xishan Zhang, Qi Guo, and Yunji
Chen
- Abstract要約: 本稿では,要素の機能的類似性に基づいてマッピング関数を学習する新しいフレームワークを提案する。
オンラインプロトタイプアライメント(OPA)は、わずか数回で数発のポリシー転送を達成できる。
- 参考スコア(独自算出の注目度): 18.310398679044244
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Domain adaptation in reinforcement learning (RL) mainly deals with the
changes of observation when transferring the policy to a new environment. Many
traditional approaches of domain adaptation in RL manage to learn a mapping
function between the source and target domain in explicit or implicit ways.
However, they typically require access to abundant data from the target domain.
Besides, they often rely on visual clues to learn the mapping function and may
fail when the source domain looks quite different from the target domain. To
address these problems, we propose a novel framework Online Prototype Alignment
(OPA) to learn the mapping function based on the functional similarity of
elements and is able to achieve the few-shot policy transfer within only
several episodes. The key insight of OPA is to introduce an exploration
mechanism that can interact with the unseen elements of the target domain in an
efficient and purposeful manner, and then connect them with the seen elements
in the source domain according to their functionalities (instead of visual
clues). Experimental results show that when the target domain looks visually
different from the source domain, OPA can achieve better transfer performance
even with much fewer samples from the target domain, outperforming prior
methods.
- Abstract(参考訳): 強化学習(RL)におけるドメイン適応は主に、政策を新しい環境に移す際の観察の変化を扱う。
RLにおけるドメイン適応の伝統的なアプローチは、ソースとターゲットドメインの間のマッピング関数を明示的あるいは暗黙的に学習する。
しかし、通常、ターゲットドメインから豊富なデータにアクセスする必要があります。
さらに、マッピング関数の学習には視覚的なヒントを頼りにし、ソースドメインがターゲットドメインと全く異なるように見えると失敗することがある。
これらの問題に対処するために,要素の機能的類似性に基づいてマッピング関数を学習し,数回のエピソードで最小限のポリシー転送を実現するための,新しいフレームワークであるオンラインプロトタイプアライメント(opa)を提案する。
OPAのキーとなる洞察は、ターゲットドメインの見えない要素を効率的かつ目的的に操作できる探索メカニズムを導入し、その機能(視覚的な手がかりではなく)に応じてソースドメイン内の要素と接続することである。
実験の結果、ターゲットドメインがソースドメインと視覚的に異なる場合、OPAは、ターゲットドメインからのサンプルがはるかに少ない場合でも、より優れた転送性能を達成でき、先行手法よりも優れることが示された。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - Adversarial Feature Augmentation for Cross-domain Few-shot
Classification [2.68796389443975]
本稿では, ドメインギャップを補うために, 対角的特徴拡張法(AFA)を提案する。
提案手法はプラグイン・アンド・プレイモジュールであり,既存の数発学習手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2022-08-23T15:10:22Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Multilevel Knowledge Transfer for Cross-Domain Object Detection [26.105283273950942]
ドメインシフトは、特定のドメイン(ソース)でトレーニングされたモデルが、異なるドメイン(ターゲット)のサンプルに露出しても、うまく動作しない、よく知られた問題である。
本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。
私たちのアプローチは、ソースとターゲットドメイン間のドメインシフトを徐々に削除することに依存しています。
論文 参考訳(メタデータ) (2021-08-02T15:24:40Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - Surprisingly Simple Semi-Supervised Domain Adaptation with Pretraining
and Consistency [93.89773386634717]
ビジュアルドメイン適応は、異なるソースドメインで利用可能なラベルを使用して、ターゲットのビジュアルドメインからイメージを分類する学習を含む。
いくつかの目標ラベルが存在する場合、(回転予測による)自己スーパービジョンや整合正則化といった単純な手法が、適切な目標分類器を学習するための対角アライメントなしで有効であることを示す。
我々の事前学習と一貫性(PAC)アプローチは、この半教師付きドメイン適応タスクにおいて、複数のデータセットにまたがる複数の対向的なドメインアライメント手法を超越して、技術精度を達成することができる。
論文 参考訳(メタデータ) (2021-01-29T18:40:17Z) - Cross-domain Self-supervised Learning for Domain Adaptation with Few
Source Labels [78.95901454696158]
ドメイン適応のためのクロスドメイン自己教師型学習手法を提案する。
本手法は,ソースラベルが少ない新しいターゲット領域において,ターゲット精度を著しく向上させる。
論文 参考訳(メタデータ) (2020-03-18T15:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。