論文の概要: Bridging Dynamics Gaps via Diffusion Schrödinger Bridge for Cross-Domain Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.23737v1
- Date: Fri, 27 Feb 2026 07:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.291595
- Title: Bridging Dynamics Gaps via Diffusion Schrödinger Bridge for Cross-Domain Reinforcement Learning
- Title(参考訳): クロスドメイン強化学習のための拡散シュレーディンガーブリッジによるブリッジダイナミクスギャップ
- Authors: Hanping Zhang, Yuhong Guo,
- Abstract要約: クロスドメイン強化学習(RL)は、ソースドメインとターゲットドメインの動的シフトの下で、転送可能なポリシーを学習することを目的としている。
鍵となる課題は、直接的な政策学習を妨げるターゲット・ドメイン環境の相互作用と報酬の監督の欠如である。
本稿では,BDGxRL(Bridging Dynamics Gaps for Cross-Domain Reinforcement Learning)を提案する。
- 参考スコア(独自算出の注目度): 23.628360655654507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain reinforcement learning (RL) aims to learn transferable policies under dynamics shifts between source and target domains. A key challenge lies in the lack of target-domain environment interaction and reward supervision, which prevents direct policy learning. To address this challenge, we propose Bridging Dynamics Gaps for Cross-Domain Reinforcement Learning (BDGxRL), a novel framework that leverages Diffusion Schrödinger Bridge (DSB) to align source transitions with target-domain dynamics encoded in offline demonstrations. Moreover, we introduce a reward modulation mechanism that estimates rewards based on state transitions, applying to DSB-aligned samples to ensure consistency between rewards and target-domain dynamics. BDGxRL performs target-oriented policy learning entirely within the source domain, without access to the target environment or its rewards. Experiments on MuJoCo cross-domain benchmarks demonstrate that BDGxRL outperforms state-of-the-art baselines and shows strong adaptability under transition dynamics shifts.
- Abstract(参考訳): クロスドメイン強化学習(RL)は、ソースドメインとターゲットドメインの動的シフトの下で、転送可能なポリシーを学習することを目的としている。
鍵となる課題は、直接的な政策学習を妨げるターゲット・ドメイン環境の相互作用と報酬の監督の欠如である。
この課題に対処するために,Diffusion Schrödinger Bridge (DSB) を利用した新しいフレームワークであるBDGxRL(Bridging Dynamics Gaps for Cross-Domain Reinforcement Learning)を提案する。
さらに、状態遷移に基づいて報酬を推定する報酬変調機構を導入し、DSB対応のサンプルを適用し、報酬と目標領域のダイナミクスの整合性を確保する。
BDGxRLは、ターゲット環境やその報酬にアクセスすることなく、ソースドメイン内で完全にターゲット指向のポリシー学習を行う。
MuJoCoクロスドメインベンチマークの実験では、BDGxRLは最先端のベースラインより優れ、遷移ダイナミクスシフトの下では強い適応性を示す。
関連論文リスト
- Cross-Domain Offline Policy Adaptation via Selective Transition Correction [29.251685312287155]
強化学習(RL)におけるミスマッチした力学を持つ領域をまたいだ政策の適応は依然として重要な課題である。
そこでは、他の類似ソースドメインからのオフラインデータセットにアクセスして、ターゲットドメインデータセットに対するポリシー学習を強化する。
本稿では,選択遷移補正 (STC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-05T15:37:29Z) - Connecting Domains and Contrasting Samples: A Ladder for Domain Generalization [52.52838658375592]
本稿では,ドメイン間の概念的接続性を高めるために,ドメイン接続型コントラスト学習(DCCL)を提案する。
データ側では、クラス内の接続性を改善するために、よりアグレッシブなデータ拡張とクロスドメインの陽性サンプルが導入されている。
その結果、DCCLはドメインの監督なしに最先端のベースラインを上回ることが確認された。
論文 参考訳(メタデータ) (2025-10-19T04:13:29Z) - In-Context Policy Adaptation via Cross-Domain Skill Diffusion [37.727612185480986]
本研究では,長期マルチタスク環境を対象としたコンテキスト内ポリシー適応フレームワークを提案する。
このフレームワークは、スキルベースの強化学習ポリシーを、多様なターゲットドメインに迅速に適用することを可能にする。
本フレームワークは,限られた対象領域データ条件下での政策適応性能に優れることを示す。
論文 参考訳(メタデータ) (2025-09-04T06:55:38Z) - Self-Paced Collaborative and Adversarial Network for Unsupervised Domain Adaptation [74.27130400558013]
本稿では,CAN(Collaborative and Adversarial Network)と呼ばれる非教師付きドメイン適応手法を提案する。
CANは、ニューラルネットワークのトレーニングに、ドメイン協調学習戦略とドメイン共用学習戦略を使用する。
対象領域における識別性をさらに高めるために,SPCAN(Self-Paced CAN)を提案する。
論文 参考訳(メタデータ) (2025-06-24T02:58:37Z) - MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning [25.497449531415125]
オフラインソースと限られたターゲットデータセットからポリシーを学習することを目的として、オフライン強化学習をオフラインで研究する。
学習対象の動的遷移を用いたポリシーを最適化するモデルベースオフダイナミックスオフラインRLアルゴリズムMOBODYを提案する。
我々はMOBODYを幅広い MuJoCo および Adroit ベンチマークで評価し、最先端のオフダイナミックス RL ベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-06-10T05:36:54Z) - Cross-Domain Diffusion with Progressive Alignment for Efficient Adaptive Retrieval [52.67656818203429]
非教師付き効率的なドメイン適応検索は、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。
既存のメソッドは、ターゲットドメインの潜在的なノイズに対処できず、ドメイン間で直接高レベルな機能を調整します。
そこで本研究では,これらの課題に対処する新しいクロスドメイン拡散・プログレッシブアライメント法(COUPLE)を提案する。
論文 参考訳(メタデータ) (2025-05-20T04:17:39Z) - Off-Dynamics Reinforcement Learning via Domain Adaptation and Reward Augmented Imitation [19.37193250533054]
本稿では、模擬学習を利用して、報酬修正から学んだポリシーを対象ドメインに転送することを提案する。
DARAIL(Domain Adaptation and Reward Augmented Imitation Learning)は,ドメイン適応のための報酬修正手法である。
論文 参考訳(メタデータ) (2024-11-15T02:35:20Z) - xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing [21.37585797507323]
ドメイン間政策伝達手法は主に、ポリシー学習を容易にするために、ドメインの対応や修正を学習することを目的としている。
本稿では,クロスドメイントラジェクトリ適応のために特別に設計された拡散モデルを用いたクロスドメイントラジェクトリ・EDitingフレームワークを提案する。
提案するモデルアーキテクチャは,対象データ内の動的パターンだけでなく,状態,行動,報酬間の複雑な依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-13T10:07:28Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。