論文の概要: Cross-Domain Offline Policy Adaptation via Selective Transition Correction
- arxiv url: http://arxiv.org/abs/2602.05776v1
- Date: Thu, 05 Feb 2026 15:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.006016
- Title: Cross-Domain Offline Policy Adaptation via Selective Transition Correction
- Title(参考訳): 選択遷移補正によるクロスドメインオフライン政策適応
- Authors: Mengbei Yan, Jiafei Lyu, Shengjie Sun, Zhongjian Qiao, Jingwen Yang, Zichuan Lin, Deheng Ye, Xiu Li,
- Abstract要約: 強化学習(RL)におけるミスマッチした力学を持つ領域をまたいだ政策の適応は依然として重要な課題である。
そこでは、他の類似ソースドメインからのオフラインデータセットにアクセスして、ターゲットドメインデータセットに対するポリシー学習を強化する。
本稿では,選択遷移補正 (STC) アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 29.251685312287155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It remains a critical challenge to adapt policies across domains with mismatched dynamics in reinforcement learning (RL). In this paper, we study cross-domain offline RL, where an offline dataset from another similar source domain can be accessed to enhance policy learning upon a target domain dataset. Directly merging the two datasets may lead to suboptimal performance due to potential dynamics mismatches. Existing approaches typically mitigate this issue through source domain transition filtering or reward modification, which, however, may lead to insufficient exploitation of the valuable source domain data. Instead, we propose to modify the source domain data into the target domain data. To that end, we leverage an inverse policy model and a reward model to correct the actions and rewards of source transitions, explicitly achieving alignment with the target dynamics. Since limited data may result in inaccurate model training, we further employ a forward dynamics model to retain corrected samples that better match the target dynamics than the original transitions. Consequently, we propose the Selective Transition Correction (STC) algorithm, which enables reliable usage of source domain data for policy adaptation. Experiments on various environments with dynamics shifts demonstrate that STC achieves superior performance against existing baselines.
- Abstract(参考訳): 強化学習(RL)において、ミスマッチしたダイナミックスを持つドメイン間でポリシーを適用することは、依然として重要な課題である。
本稿では、他の類似ソースドメインからのオフラインデータセットにアクセス可能なクロスドメインオフラインRLについて検討し、ターゲットドメインデータセットに対するポリシー学習を強化する。
2つのデータセットを直接マージすると、動的ミスマッチの可能性があるため、最適以下のパフォーマンスにつながる可能性がある。
既存のアプローチでは、ソースドメインの遷移フィルタリングや報酬の修正を通じてこの問題を軽減するのが一般的である。
代わりに、ソースドメインデータをターゲットドメインデータに変更することを提案する。
そのために、逆ポリシーモデルと報酬モデルを利用して、ソース遷移の動作と報酬を補正し、ターゲットのダイナミクスとの整合性を明確に達成する。
限られたデータによってモデルのトレーニングが不正確になる可能性があるため、元のトランジションよりもターゲットのダイナミックスによく適合する修正されたサンプルを保持するために、フォワード・ダイナミクス・モデルを用いる。
そこで本研究では,政策適応にソース・ドメイン・データの信頼性の高い利用を可能にするSelective Transition Correction (STC)アルゴリズムを提案する。
動的シフトを伴う様々な環境の実験により、STCは既存のベースラインに対して優れた性能を発揮することが示された。
関連論文リスト
- Cross-Domain Offline Policy Adaptation with Dynamics- and Value-Aligned Data Filtering [71.07094489719034]
クロスドメインオフライン強化学習は、ターゲット環境にデプロイされたエージェントをトレーニングすることを目的としている。
近年の進歩は、ターゲットドメインとの動的アライメントを示すソースドメインサンプルを選択的に共有することでこの問題に対処している。
これらのアプローチは、動的アライメントとテキスト値アライメント(すなわち、ソースドメインから高品質で高価値なサンプルを選択すること)にのみ焦点をあてる。
textbfunderlineDynamics-および textbfunderlineValue-aligned textbfunderlineDataを示す。
論文 参考訳(メタデータ) (2025-12-02T05:45:40Z) - MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning [25.497449531415125]
オフラインソースと限られたターゲットデータセットからポリシーを学習することを目的として、オフライン強化学習をオフラインで研究する。
学習対象の動的遷移を用いたポリシーを最適化するモデルベースオフダイナミックスオフラインRLアルゴリズムMOBODYを提案する。
我々はMOBODYを幅広い MuJoCo および Adroit ベンチマークで評価し、最先端のオフダイナミックス RL ベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-06-10T05:36:54Z) - Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning [26.915055027485465]
限られたデータを持つ対象領域におけるポリシー学習を強化するために,オフラインオフダイナミックス強化学習(RL)について検討する。
我々のアプローチは、リターン条件付き教師あり学習(RCSL)、特に決定変換器(DT)に焦点を当てている。
本研究では、ソース領域のリターンをターゲット領域のリターンと整列させて拡張するリターンAugmented Decision Transformer (RADT) 法を提案する。
論文 参考訳(メタデータ) (2024-10-30T20:46:26Z) - xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing [21.37585797507323]
ドメイン間政策伝達手法は主に、ポリシー学習を容易にするために、ドメインの対応や修正を学習することを目的としている。
本稿では,クロスドメイントラジェクトリ適応のために特別に設計された拡散モデルを用いたクロスドメイントラジェクトリ・EDitingフレームワークを提案する。
提案するモデルアーキテクチャは,対象データ内の動的パターンだけでなく,状態,行動,報酬間の複雑な依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-13T10:07:28Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - RAIN: RegulArization on Input and Network for Black-Box Domain
Adaptation [80.03883315743715]
ソースのないドメイン適応は、ソースデータを公開することなく、ソース訓練されたモデルをターゲットドメインに転送する。
このパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。
そこで我々は,入力レベルとネットワークレベルの両方の正規化からブラックボックスドメインを適応させる新しい手法であるRAIN(RegulArization on Input and Network)を提案する。
論文 参考訳(メタデータ) (2022-08-22T18:18:47Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。