論文の概要: DmC: Nearest Neighbor Guidance Diffusion Model for Offline Cross-domain Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.20499v1
- Date: Mon, 28 Jul 2025 03:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.779452
- Title: DmC: Nearest Neighbor Guidance Diffusion Model for Offline Cross-domain Reinforcement Learning
- Title(参考訳): DmC:オフラインクロスドメイン強化学習のための最近傍誘導拡散モデル
- Authors: Linh Le Pham Van, Minh Hoang Nguyen, Duc Kieu, Hung Le, Hung The Tran, Sunil Gupta,
- Abstract要約: クロスドメインオフライン強化学習(RL)は、追加のオフラインソースデータセットを利用することで、サンプル効率の向上を目指している。
DmCは、限られたターゲットサンプルを持つクロスドメインオフラインRLのための新しいフレームワークである。
- 参考スコア(独自算出の注目度): 25.34027442073412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-domain offline reinforcement learning (RL) seeks to enhance sample efficiency in offline RL by utilizing additional offline source datasets. A key challenge is to identify and utilize source samples that are most relevant to the target domain. Existing approaches address this challenge by measuring domain gaps through domain classifiers, target transition dynamics modeling, or mutual information estimation using contrastive loss. However, these methods often require large target datasets, which is impractical in many real-world scenarios. In this work, we address cross-domain offline RL under a limited target data setting, identifying two primary challenges: (1) Dataset imbalance, which is caused by large source and small target datasets and leads to overfitting in neural network-based domain gap estimators, resulting in uninformative measurements; and (2) Partial domain overlap, where only a subset of the source data is closely aligned with the target domain. To overcome these issues, we propose DmC, a novel framework for cross-domain offline RL with limited target samples. Specifically, DmC utilizes $k$-nearest neighbor ($k$-NN) based estimation to measure domain proximity without neural network training, effectively mitigating overfitting. Then, by utilizing this domain proximity, we introduce a nearest-neighbor-guided diffusion model to generate additional source samples that are better aligned with the target domain, thus enhancing policy learning with more effective source samples. Through theoretical analysis and extensive experiments in diverse MuJoCo environments, we demonstrate that DmC significantly outperforms state-of-the-art cross-domain offline RL methods, achieving substantial performance gains.
- Abstract(参考訳): クロスドメインオフライン強化学習(RL)は、追加のオフラインソースデータセットを利用することで、オフラインRLのサンプル効率を向上させることを目指している。
重要な課題は、ターゲットドメインに最も関係のあるソースサンプルを特定し、利用することである。
既存のアプローチでは、ドメイン分類器によるドメインギャップの測定、ターゲット遷移ダイナミクスモデリング、および対照的な損失を用いた相互情報推定によって、この問題に対処している。
しかし、これらの手法は多くの場合、多くの現実のシナリオでは実現不可能な大きなターゲットデータセットを必要とする。
本研究では,(1)大規模なソースと小さなターゲットデータセットによって引き起こされるデータセットの不均衡と,ニューラルネットワークベースの領域ギャップ推定器の過度な適合による非形式的測定,(2)ソースデータのサブセットがターゲットドメインと密接に一致している部分的ドメインオーバーラップという,2つの主要な課題を特定する。
これらの課題を克服するために、限定的なターゲットサンプルを持つクロスドメインオフラインRLのための新しいフレームワークDmCを提案する。
具体的には、DmCは$k$-nearest neighbor ($k$-NN)ベースの見積もりを使用して、ニューラルネットワークトレーニングなしでドメイン近接を測定することで、オーバーフィッティングを効果的に軽減する。
そして、この領域近接を利用して、最も近い隣り合う誘導拡散モデルを導入し、ターゲット領域とより整合した追加のソースサンプルを生成し、より効果的なソースサンプルによるポリシー学習を強化する。
様々な MuJoCo 環境での理論的解析と広範な実験により、DmC が最先端のクロスドメインオフライン RL 法より著しく優れ、性能が大幅に向上することを示した。
関連論文リスト
- Data-Efficient CLIP-Powered Dual-Branch Networks for Source-Free Unsupervised Domain Adaptation [4.7589762171821715]
Source-free Unsupervised Domain Adaptation (SF-UDA) は、ソースサンプルに直接アクセスすることなく、ラベル付きソースドメインからラベルなしターゲットドメインにモデルのパフォーマンスを転送することを目的としている。
データ効率のよいCLIP方式のデュアルブランチネットワーク(CDBN)を導入し、限られたソースデータとプライバシの問題に対処する。
CDBNは、7つのデータセット上の31の転送タスクにわたる既存のメソッドよりもはるかに少ないソースドメインサンプルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-21T09:25:49Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。
近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。
本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文 参考訳(メタデータ) (2022-04-24T12:22:19Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Discriminative Cross-Domain Feature Learning for Partial Domain
Adaptation [70.45936509510528]
部分的なドメイン適応は、より大きく多様なソースドメインからの知識を、より少ないクラス数でより小さなターゲットドメインに適応させることを目的としています。
ドメイン適応の最近の実践は、ターゲットドメインの擬似ラベルを組み込むことで、効果的な特徴を抽出する。
ターゲットデータを少数のソースデータのみにアライメントすることが不可欠である。
論文 参考訳(メタデータ) (2020-08-26T03:18:53Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。