論文の概要: Cross-Domain Policy Adaptation by Capturing Representation Mismatch
- arxiv url: http://arxiv.org/abs/2405.15369v1
- Date: Fri, 24 May 2024 09:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:11:32.807289
- Title: Cross-Domain Policy Adaptation by Capturing Representation Mismatch
- Title(参考訳): 表現ミスマッチのキャプチャによるドメイン間政策適応
- Authors: Jiafei Lyu, Chenjia Bai, Jingwen Yang, Zongqing Lu, Xiu Li,
- Abstract要約: 強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
- 参考スコア(独自算出の注目度): 53.087413751430255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is vital to learn effective policies that can be transferred to different domains with dynamics discrepancies in reinforcement learning (RL). In this paper, we consider dynamics adaptation settings where there exists dynamics mismatch between the source domain and the target domain, and one can get access to sufficient source domain data, while can only have limited interactions with the target domain. Existing methods address this problem by learning domain classifiers, performing data filtering from a value discrepancy perspective, etc. Instead, we tackle this challenge from a decoupled representation learning perspective. We perform representation learning only in the target domain and measure the representation deviations on the transitions from the source domain, which we show can be a signal of dynamics mismatch. We also show that representation deviation upper bounds performance difference of a given policy in the source domain and target domain, which motivates us to adopt representation deviation as a reward penalty. The produced representations are not involved in either policy or value function, but only serve as a reward penalizer. We conduct extensive experiments on environments with kinematic and morphology mismatch, and the results show that our method exhibits strong performance on many tasks. Our code is publicly available at https://github.com/dmksjfl/PAR.
- Abstract(参考訳): 強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインの間に動的ミスマッチが存在する場合の動的適応設定について考察し、ターゲットドメインとの限られた相互作用しか持たず、十分なソースドメインデータにアクセスできることを示す。
既存のメソッドは、ドメイン分類器を学習し、値の不一致の観点からデータフィルタリングを行うなど、この問題に対処します。
代わりに、分離された表現学習の観点から、この課題に取り組む。
対象領域のみに表現学習を行い、ソース領域からの遷移における表現偏差を測定し、動的ミスマッチの信号であることを示す。
また、表現偏差は、表現偏差を報酬として採用する動機となる、ソースドメインとターゲットドメインにおける所定のポリシのパフォーマンス差を示す。
生成された表現は、ポリシーまたは値関数の両方に関与しないが、報酬ペナライザとしてのみ機能する。
運動学および形態学のミスマッチを用いた環境実験を行い,本手法が多くのタスクに対して強い性能を示すことを示す。
私たちのコードはhttps://github.com/dmksjfl/PARで公開されています。
関連論文リスト
- Online Prototype Alignment for Few-shot Policy Transfer [18.310398679044244]
本稿では,要素の機能的類似性に基づいてマッピング関数を学習する新しいフレームワークを提案する。
オンラインプロトタイプアライメント(OPA)は、わずか数回で数発のポリシー転送を達成できる。
論文 参考訳(メタデータ) (2023-06-12T11:42:13Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Domain Adaptation via Prompt Learning [39.97105851723885]
Unsupervised Domain Adaption (UDA) は、十分にアノテーションされたソースドメインから学習したモデルをターゲットドメインに適応させることを目的としている。
我々は,Prompt Learning (DAPL) によるドメイン適応という,UDAのための新しいプロンプト学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-02-14T13:25:46Z) - Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。
本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。
私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文 参考訳(メタデータ) (2021-10-13T04:12:27Z) - Multilevel Knowledge Transfer for Cross-Domain Object Detection [26.105283273950942]
ドメインシフトは、特定のドメイン(ソース)でトレーニングされたモデルが、異なるドメイン(ターゲット)のサンプルに露出しても、うまく動作しない、よく知られた問題である。
本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。
私たちのアプローチは、ソースとターゲットドメイン間のドメインシフトを徐々に削除することに依存しています。
論文 参考訳(メタデータ) (2021-08-02T15:24:40Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Alleviating Semantic-level Shift: A Semi-supervised Domain Adaptation
Method for Semantic Segmentation [97.8552697905657]
このタスクの重要な課題は、ソースとターゲットドメイン間のデータ分散の相違を緩和する方法である。
本稿では,グローバルな視点とローカルな視点の両方から分布の整合性を促進できるASS(Alleviating Semantic-level Shift)を提案する。
GTA5、Cityscapes、Synthia、Cityscapesの2つのドメイン適応タスクにASSを適用します。
論文 参考訳(メタデータ) (2020-04-02T03:25:05Z) - Differential Treatment for Stuff and Things: A Simple Unsupervised
Domain Adaptation Method for Semantic Segmentation [105.96860932833759]
最先端のアプローチは、セマンティックレベルのアライメントの実行がドメインシフトの問題に取り組むのに役立つことを証明している。
我々は,物事領域や物事に対する異なる戦略による意味レベルのアライメントを改善することを提案する。
提案手法に加えて,提案手法は,ソースとターゲットドメイン間の最も類似した機能やインスタンス機能を最小化することにより,この問題の緩和に有効であることを示す。
論文 参考訳(メタデータ) (2020-03-18T04:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。