論文の概要: Cross-Domain Offline Policy Adaptation with Dynamics- and Value-Aligned Data Filtering
- arxiv url: http://arxiv.org/abs/2512.02435v1
- Date: Tue, 02 Dec 2025 05:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.733775
- Title: Cross-Domain Offline Policy Adaptation with Dynamics- and Value-Aligned Data Filtering
- Title(参考訳): ダイナミックおよびバリューアラインデータフィルタリングを用いたクロスドメインオフラインポリシー適応
- Authors: Zhongjian Qiao, Rui Yang, Jiafei Lyu, Chenjia Bai, Xiu Li, Zhuoran Yang, Siyang Gao, Shuang Qiu,
- Abstract要約: クロスドメインオフライン強化学習は、ターゲット環境にデプロイされたエージェントをトレーニングすることを目的としている。
近年の進歩は、ターゲットドメインとの動的アライメントを示すソースドメインサンプルを選択的に共有することでこの問題に対処している。
これらのアプローチは、動的アライメントとテキスト値アライメント(すなわち、ソースドメインから高品質で高価値なサンプルを選択すること)にのみ焦点をあてる。
textbfunderlineDynamics-および textbfunderlineValue-aligned textbfunderlineDataを示す。
- 参考スコア(独自算出の注目度): 71.07094489719034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Domain Offline Reinforcement Learning aims to train an agent deployed in the target environment, leveraging both a limited target domain dataset and a source domain dataset with (possibly) sufficient data coverage. Due to the underlying dynamics misalignment between the source and target domain, simply merging the data from two datasets may incur inferior performance. Recent advances address this issue by selectively sharing source domain samples that exhibit dynamics alignment with the target domain. However, these approaches focus solely on dynamics alignment and overlook \textit{value alignment}, i.e., selecting high-quality, high-value samples from the source domain. In this paper, we first demonstrate that both dynamics alignment and value alignment are essential for policy learning, by examining the limitations of the current theoretical framework for cross-domain RL and establishing a concrete sub-optimality gap of a policy trained on the source domain and evaluated on the target domain. Motivated by the theoretical insights, we propose to selectively share those source domain samples with both high dynamics and value alignment and present our \textbf{\underline{D}}ynamics- and \textbf{\underline{V}}alue-aligned \textbf{\underline{D}}ata \textbf{\underline{F}}iltering (DVDF) method. We design a range of dynamics shift settings, including kinematic and morphology shifts, and evaluate DVDF on various tasks and datasets, as well as in challenging extremely low-data settings where the target domain dataset contains only 5,000 transitions. Extensive experiments demonstrate that DVDF consistently outperforms prior strong baselines and delivers exceptional performance across multiple tasks and datasets.
- Abstract(参考訳): Cross-Domain Offline Reinforcement Learningは、限られたターゲットドメインデータセットとソースドメインデータセットの両方を(おそらく)十分なデータカバレッジで活用して、ターゲット環境にデプロイされたエージェントをトレーニングすることを目的としている。
ソースとターゲットドメイン間の動的ミスアライメントの根底にあるため、単純に2つのデータセットからデータをマージするだけでパフォーマンスが低下する可能性がある。
近年の進歩は、ターゲットドメインとの動的アライメントを示すソースドメインサンプルを選択的に共有することでこの問題に対処している。
しかしながら、これらのアプローチは、動的アライメントとoverlook \textit{value alignment}(すなわち、ソース領域から高品質で高価値なサンプルを選択すること)にのみ焦点をあてている。
そこで,本論文では,従来のドメイン間RL理論フレームワークの限界を検証し,ソースドメイン上で訓練され,対象ドメイン上で評価されるポリシーの具体的部分最適ギャップを確立することにより,動的アライメントと値アライメントが政策学習に不可欠であることを実証する。
理論的な知見により,これらのソースドメインサンプルを高ダイナミック性と値アライメントの両方で選択的に共有し,我々の \textbf{\underline{D}}ynamics- および \textbf{\underline{V}}alue-aligned \textbf{\underline{D}}ata \textbf{\underline{F}}iltering (DVDF) 法を提案する。
我々は、動力学的および形態的シフトを含む様々な動的シフト設定を設計し、様々なタスクやデータセット上でDVDFを評価し、ターゲットドメインデータセットが5000の遷移しか含まない極低データ設定に挑戦する。
大規模な実験では、DVDFは以前の強いベースラインを一貫して上回り、複数のタスクやデータセットで例外的なパフォーマンスを提供する。
関連論文リスト
- DmC: Nearest Neighbor Guidance Diffusion Model for Offline Cross-domain Reinforcement Learning [11.290019540058625]
クロスドメインオフライン強化学習(RL)は、追加のオフラインソースデータセットを利用することで、サンプル効率の向上を目指している。
DmCは、限られたターゲットサンプルを持つクロスドメインオフラインRLのための新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-28T03:34:15Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z) - Dynamic Feature Alignment for Semi-supervised Domain Adaptation [23.67093835143]
本稿では,動的特徴アライメントを用いてドメイン間差とドメイン内差に対処することを提案する。
我々のアプローチは、広範囲なチューニングや逆行訓練を必要としないが、半教師付きドメイン適応のための技術の現状を著しく改善する。
論文 参考訳(メタデータ) (2021-10-18T22:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。