論文の概要: xTED: Cross-Domain Policy Adaptation via Diffusion-Based Trajectory Editing
- arxiv url: http://arxiv.org/abs/2409.08687v1
- Date: Fri, 13 Sep 2024 10:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:08:51.584697
- Title: xTED: Cross-Domain Policy Adaptation via Diffusion-Based Trajectory Editing
- Title(参考訳): xTED:拡散に基づく軌道編集によるドメイン間ポリシー適応
- Authors: Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan,
- Abstract要約: 新しい拡散変圧器モデル(DDiT)を用いたクロスドメイン軌道EDiting(xTED)フレームワークを提案する。
提案した拡散トランスフォーマーバックボーンは、状態、動作、報酬シーケンス間の複雑な依存関係と、ターゲットデータトラジェクトリ内の遷移ダイナミクスをキャプチャする。
その単純さにもかかわらず、xTEDは広範囲なシミュレーションや実ロボット実験において、他のベースラインよりも優れた性能を示している。
- 参考スコア(独自算出の注目度): 21.37585797507323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reusing pre-collected data from different domains is an attractive solution in decision-making tasks where the accessible data is insufficient in the target domain but relatively abundant in other related domains. Existing cross-domain policy transfer methods mostly aim at learning domain correspondences or corrections to facilitate policy learning, which requires learning domain/task-specific model components, representations, or policies that are inflexible or not fully reusable to accommodate arbitrary domains and tasks. These issues make us wonder: can we directly bridge the domain gap at the data (trajectory) level, instead of devising complicated, domain-specific policy transfer models? In this study, we propose a Cross-Domain Trajectory EDiting (xTED) framework with a new diffusion transformer model (Decision Diffusion Transformer, DDiT) that captures the trajectory distribution from the target dataset as a prior. The proposed diffusion transformer backbone captures the intricate dependencies among state, action, and reward sequences, as well as the transition dynamics within the target data trajectories. With the above pre-trained diffusion prior, source data trajectories with domain gaps can be transformed into edited trajectories that closely resemble the target data distribution through the diffusion-based editing process, which implicitly corrects the underlying domain gaps, enhancing the state realism and dynamics reliability in source trajectory data, while enabling flexible choices of downstream policy learning methods. Despite its simplicity, xTED demonstrates superior performance against other baselines in extensive simulation and real-robot experiments.
- Abstract(参考訳): 異なるドメインから事前に収集されたデータを再利用することは、ターゲットドメインではアクセス可能なデータが不十分だが、他のドメインでは比較的豊富である意思決定タスクにおいて魅力的な解決策である。
既存のドメイン間のポリシー伝達手法は主に、ドメイン/タスク固有のモデルコンポーネント、表現、あるいは任意のドメインやタスクに対応するために完全に再利用可能なポリシーを学ぶ必要があるポリシー学習を促進するために、ドメインの対応や修正を学ぶことを目的としている。
複雑なドメイン固有のポリシー転送モデルを開発するのではなく、データ(軌道)レベルでドメインギャップを直接ブリッジできるだろうか?
本研究では,新しい拡散変圧器モデル (DDiT, Decision Diffusion Transformer) を用いたクロスドメイントラジェクトリ・EDiting (xTED) フレームワークを提案する。
提案した拡散トランスフォーマーバックボーンは、状態、動作、報酬シーケンス間の複雑な依存関係と、ターゲットデータトラジェクトリ内の遷移ダイナミクスをキャプチャする。
上記の事前訓練された拡散により、ドメインギャップを持つソースデータトラジェクトリは、拡散ベースの編集プロセスを通じて、ターゲットデータ分布と密接に類似した編集されたトラジェクトリに変換され、基礎となるドメインギャップを暗黙的に修正し、ソーストラジェクトリデータの状態リアリズムと動的信頼性を高め、下流ポリシー学習手法の柔軟な選択を可能にする。
その単純さにもかかわらず、xTEDは広範囲なシミュレーションや実ロボット実験において、他のベースラインよりも優れた性能を示している。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Normalization Perturbation: A Simple Domain Generalization Method for
Real-World Domain Shifts [133.99270341855728]
実世界のドメインスタイルは環境の変化やセンサノイズによって大きく変化する可能性がある。
深層モデルはトレーニングドメインスタイルしか知らない。
このドメインスタイルのオーバーフィット問題を解決するために,正規化摂動を提案する。
論文 参考訳(メタデータ) (2022-11-08T17:36:49Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Multilevel Knowledge Transfer for Cross-Domain Object Detection [26.105283273950942]
ドメインシフトは、特定のドメイン(ソース)でトレーニングされたモデルが、異なるドメイン(ターゲット)のサンプルに露出しても、うまく動作しない、よく知られた問題である。
本研究では,オブジェクト検出タスクにおける領域シフト問題に対処する。
私たちのアプローチは、ソースとターゲットドメイン間のドメインシフトを徐々に削除することに依存しています。
論文 参考訳(メタデータ) (2021-08-02T15:24:40Z) - Learning causal representations for robust domain adaptation [31.261956776418618]
多くの現実世界のアプリケーションでは、ターゲットのドメインデータが常に利用できるとは限らない。
本稿では,学習段階において対象ドメインデータが利用できない場合について検討する。
本稿では,深層オートエンコーダと因果構造学習を統一モデルに統合したCausal AutoEncoder (CAE)を提案する。
論文 参考訳(メタデータ) (2020-11-12T11:24:03Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Contradistinguisher: A Vapnik's Imperative to Unsupervised Domain
Adaptation [7.538482310185133]
本研究では,コントラスト特徴を学習するContradistinguisherと呼ばれるモデルを提案する。
Office-31とVisDA-2017における最先端のデータセットを、シングルソースとマルチソースの両方で実現しています。
論文 参考訳(メタデータ) (2020-05-25T19:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。