論文の概要: Unifying Value Alignment and Assignment in Cross-Domain Offline Reinforcement Learning with Heterogeneous Datasets
- arxiv url: http://arxiv.org/abs/2605.24862v1
- Date: Sun, 24 May 2026 04:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.4828
- Title: Unifying Value Alignment and Assignment in Cross-Domain Offline Reinforcement Learning with Heterogeneous Datasets
- Title(参考訳): 不均一データセットを用いたクロスドメインオフライン強化学習における値アライメントとアライメントの統一
- Authors: Zhongjian Qiao, Jiafei Lyu, Chenjia Bai, Peisong Wang, Siyang Gao, Shuang Qiu,
- Abstract要約: クロスドメインオフライン強化学習(RL)は、ターゲットドメインの限られたデータセットと、動的シフトを示すソースドメインのデータセットを使用して、ターゲットドメインのポリシを学習することを目的としている。
近年の研究では、動的アライメントや値アライメントの観点からデータフィルタリングを行い、効率的なポリシ転送を実現している。
値のミスアサインメントは、値アライメントを損なう可能性を示し、サブ最適サンプルの選択に向けたデータフィルタリングをミスリードし、サブ最適ギャップを緩める。
本稿では,動的アライメント,値アライメント,値アライメントを統合したV2Aを提案する。
- 参考スコア(独自算出の注目度): 41.41933463623304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-domain offline reinforcement learning (RL) aims to learn a policy in the target domain with a limited target domain dataset and a source domain dataset that exhibits a dynamics shift. Training directly on the original source dataset typically leads to performance collapse. Recent studies perform data filtering from the perspective of dynamics alignment or value alignment to enable efficient policy transfer. However, these studies are typically validated on single-domain or single-behavior-policy source datasets. In this work, we explore a more general heterogeneous cross-domain offline RL setting, where the source datasets may be collected from multiple source domains by diverse behavior policies. We first uncover a critical yet overlooked issue in this setting: value misassignment. Empirically and theoretically, we demonstrate that value misassignment can undermine value alignment, mislead data filtering toward selecting suboptimal samples, and loosen the suboptimality gap, thereby degrading the agent's performance. To address this issue, we propose V2A, which integrates dynamics alignment, value alignment, and value assignment. V2A first employs temporally-consistent modality representation learning to extract dynamics modalities from the source dataset, followed by modality-aware advantage learning to rectify value alignment. Finally, it adopts a data filtering paradigm to selectively share source data for policy learning. Empirical results show that V2A significantly outperforms strong baseline methods under general heterogeneous cross-domain offline RL settings.
- Abstract(参考訳): クロスドメインオフライン強化学習(RL)は、ターゲットドメインの限られたデータセットと、動的シフトを示すソースドメインのデータセットを使用して、ターゲットドメインのポリシを学習することを目的としている。
オリジナルのソースデータセットを直接トレーニングすることは、通常、パフォーマンスの崩壊につながる。
近年の研究では、動的アライメントや値アライメントの観点からデータフィルタリングを行い、効率的なポリシ転送を実現している。
しかしながら、これらの研究は通常、単一ドメインまたは単一ビヘイビア・ポリシーソースデータセットで検証される。
本研究では、より一般的な異種クロスドメインオフラインRL設定について検討する。そこでは、多様な振る舞いポリシーにより、ソースデータセットを複数のソースドメインから収集することができる。
私たちはまず、この設定で重要で見過ごされた問題を発見しました。
経験的,理論的には,値ミス割り当てが値アライメントを損なうこと,最適なサンプル選択に向けたデータフィルタリングをミスリードすること,最適以下のギャップを緩めることにより,エージェントの性能を低下させることを実証する。
この問題に対処するために、動的アライメント、値アライメント、値アライメントを統合したV2Aを提案する。
V2Aは、まず、時間的に一貫性のあるモダリティ表現学習を用いて、ソースデータセットから動的モダリティを抽出し、次いで、モダリティを意識したアドバンテージ学習により、値アライメントの是正を行う。
最後に、ポリシー学習のためにソースデータを選択的に共有するために、データフィルタリングパラダイムを採用する。
実験により、V2Aは、一般の異種クロスドメインオフラインRL設定下では、強いベースライン法よりも著しく優れていることが示された。
関連論文リスト
- Cross-Domain Offline Policy Adaptation via Selective Transition Correction [29.251685312287155]
強化学習(RL)におけるミスマッチした力学を持つ領域をまたいだ政策の適応は依然として重要な課題である。
そこでは、他の類似ソースドメインからのオフラインデータセットにアクセスして、ターゲットドメインデータセットに対するポリシー学習を強化する。
本稿では,選択遷移補正 (STC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-05T15:37:29Z) - Cross-Domain Offline Policy Adaptation with Dynamics- and Value-Aligned Data Filtering [71.07094489719034]
クロスドメインオフライン強化学習は、ターゲット環境にデプロイされたエージェントをトレーニングすることを目的としている。
近年の進歩は、ターゲットドメインとの動的アライメントを示すソースドメインサンプルを選択的に共有することでこの問題に対処している。
これらのアプローチは、動的アライメントとテキスト値アライメント(すなわち、ソースドメインから高品質で高価値なサンプルを選択すること)にのみ焦点をあてる。
textbfunderlineDynamics-および textbfunderlineValue-aligned textbfunderlineDataを示す。
論文 参考訳(メタデータ) (2025-12-02T05:45:40Z) - DmC: Nearest Neighbor Guidance Diffusion Model for Offline Cross-domain Reinforcement Learning [11.290019540058625]
クロスドメインオフライン強化学習(RL)は、追加のオフラインソースデータセットを利用することで、サンプル効率の向上を目指している。
DmCは、限られたターゲットサンプルを持つクロスドメインオフラインRLのための新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-28T03:34:15Z) - Domain Adaptation for Offline Reinforcement Learning with Limited Samples [2.3674123304219816]
オフライン強化学習は、静的ターゲットデータセットから効果的なポリシーを学ぶ。
ターゲットデータセットの品質とサイズに依存しており、ターゲットデータセットの限られたサンプルが利用可能であれば劣化する。
本稿では,各データセットに割り当てられた重みがオフラインRLの性能に与える影響を理論的に検討する最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T05:38:48Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。