論文の概要: Cross-Domain Policy Adaptation via Value-Guided Data Filtering
- arxiv url: http://arxiv.org/abs/2305.17625v2
- Date: Fri, 13 Oct 2023 06:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:48:32.423594
- Title: Cross-Domain Policy Adaptation via Value-Guided Data Filtering
- Title(参考訳): バリューガイドデータフィルタリングによるクロスドメインポリシー適応
- Authors: Kang Xu, Chenjia Bai, Xiaoteng Ma, Dong Wang, Bin Zhao, Zhen Wang,
Xuelong Li, Wei Li
- Abstract要約: 動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 57.62692881606099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing policies across different domains with dynamics mismatch poses a
significant challenge in reinforcement learning. For example, a robot learns
the policy in a simulator, but when it is deployed in the real world, the
dynamics of the environment may be different. Given the source and target
domain with dynamics mismatch, we consider the online dynamics adaptation
problem, in which case the agent can access sufficient source domain data while
online interactions with the target domain are limited. Existing research has
attempted to solve the problem from the dynamics discrepancy perspective. In
this work, we reveal the limitations of these methods and explore the problem
from the value difference perspective via a novel insight on the value
consistency across domains. Specifically, we present the Value-Guided Data
Filtering (VGDF) algorithm, which selectively shares transitions from the
source domain based on the proximity of paired value targets across the two
domains. Empirical results on various environments with kinematic and
morphology shifts demonstrate that our method achieves superior performance
compared to prior approaches.
- Abstract(参考訳): 動的ミスマッチによるドメイン間のポリシーの一般化は、強化学習において重要な課題となる。
例えば、ロボットはシミュレータでポリシーを学習するが、現実の世界にデプロイされると、環境のダイナミクスが異なる可能性がある。
動的ミスマッチのあるソースドメインとターゲットドメインを考えると、ターゲットドメインとのオンラインインタラクションが制限されている間にエージェントが十分なソースドメインデータにアクセスすることができるオンラインダイナミクス適応問題を考える。
既存の研究は、ダイナミクスの不一致の観点からこの問題を解決しようと試みている。
本稿では、これらの手法の限界を明らかにし、ドメイン間の価値整合性に関する新しい洞察を通して、価値差の観点から問題を探求する。
具体的には、2つの領域にまたがるペア値ターゲットの近接性に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
キネマティック・モルフォロジーシフトを用いた各種環境における実験結果から,従来の手法よりも優れた性能が得られることが示された。
関連論文リスト
- Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - Revisiting the Domain Shift and Sample Uncertainty in Multi-source
Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。
この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。
これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文 参考訳(メタデータ) (2023-11-21T13:12:21Z) - Dynamic Domain Discrepancy Adjustment for Active Multi-Domain Adaptation [3.367755441623275]
マルチソースアン教師付きドメイン適応(MUDA)は、関連するソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。
アクティブマルチドメイン適応(D3AAMDA)のための動的ドメイン不一致適応法(Dynamic Domain Disrepancy Adjustment)を提案する。
このメカニズムは、ソースドメインとターゲットドメイン間の特徴のアライメントレベルを制御し、ソースドメイン内のローカルな有利な特徴情報を効果的に活用する。
論文 参考訳(メタデータ) (2023-07-26T09:40:19Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [66.53828093487269]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - OTAdapt: Optimal Transport-based Approach For Unsupervised Domain
Adaptation [10.485172090696642]
本稿では, 最適輸送ベース距離に基づいて, 教師なし領域適応に対する新しいアプローチを提案する。
このアプローチは、ドメイン間で有意義なメトリクスを必要とせずに、ターゲットドメインとソースドメインの整合を可能にする。
提案手法は,様々な問題において異なるデータセット上で評価される。
論文 参考訳(メタデータ) (2022-05-22T04:25:24Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - Gradient Regularized Contrastive Learning for Continual Domain
Adaptation [86.02012896014095]
本稿では,ラベル付きソースドメインと非ラベル付きターゲットドメインのシーケンスでモデルを提示する連続的なドメイン適応の問題について検討する。
障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。
Digits、DomainNet、Office-Caltechベンチマークの実験は、我々のアプローチの強力なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-03-23T04:10:42Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Multi-Source Domain Adaptation for Text Classification via
DistanceNet-Bandits [101.68525259222164]
本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。
タスクの損失関数と協調して最小化するために,これらの距離測度を付加的な損失関数として用いるディスタンスネットモデルを開発した。
マルチアーム・バンド・コントローラを用いて複数のソース・ドメインを動的に切り替えるDistanceNet-Banditモデルに拡張する。
論文 参考訳(メタデータ) (2020-01-13T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。