論文の概要: Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.21072v1
- Date: Tue, 24 Feb 2026 16:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.841177
- Title: Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための局所ダイナミクス対応ドメイン適応
- Authors: Zhangjie Xia, Yu Yang, Pan Xu,
- Abstract要約: オフダイナミックスオフライン強化学習(RL)は、限られたターゲットデータと豊富なソースデータを用いて、ターゲットドメインのポリシーを学ぶことを目的としている。
そこで我々はLoDADA(Localized Dynamics-Aware Domain Adaptation)を提案する。
結果から,LoDADAは局所分布ミスマッチの精度向上により,最先端のオフラインRL法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 12.053247880343699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-dynamics offline reinforcement learning (RL) aims to learn a policy for a target domain using limited target data and abundant source data collected under different transition dynamics. Existing methods typically address dynamics mismatch either globally over the state space or via pointwise data filtering; these approaches can miss localized cross-domain similarities or incur high computational cost. We propose Localized Dynamics-Aware Domain Adaptation (LoDADA), which exploits localized dynamics mismatch to better reuse source data. LoDADA clusters transitions from source and target datasets and estimates cluster-level dynamics discrepancy via domain discrimination. Source transitions from clusters with small discrepancy are retained, while those from clusters with large discrepancy are filtered out. This yields a fine-grained and scalable data selection strategy that avoids overly coarse global assumptions and expensive per-sample filtering. We provide theoretical insights and extensive experiments across environments with diverse global and local dynamics shifts. Results show that LoDADA consistently outperforms state-of-the-art off-dynamics offline RL methods by better leveraging localized distribution mismatch.
- Abstract(参考訳): オフダイナミックスオフライン強化学習(RL)は、限られたターゲットデータと、異なる遷移ダイナミクスの下で収集された豊富なソースデータを用いて、ターゲットドメインのポリシーを学習することを目的としている。
既存の手法は通常、状態空間上での動的ミスマッチや、ポイントワイズデータフィルタリングによって、動的ミスマッチに対処するが、これらの手法は、局所的なドメイン間の類似性を見逃したり、高い計算コストを発生させることがある。
そこで我々はLoDADA(Localized Dynamics-Aware Domain Adaptation)を提案する。
LoDADAクラスタはソースとターゲットのデータセットから移行し、ドメイン識別を通じてクラスタレベルのダイナミックス差を見積もる。
差分率の小さいクラスタからのソース遷移は保持され、大きな差分率のクラスタからのソース遷移はフィルタリングされる。
これにより、細粒度でスケーラブルなデータ選択戦略が得られ、大まかなグローバルな仮定や高価なサンプル単位のフィルタリングを避けることができる。
多様なグローバル・ローカル・ダイナミクス・シフトを持つ環境における理論的洞察と広範な実験を提供する。
結果から,LoDADAは局所分布ミスマッチの精度向上により,最先端のオフラインRL法よりも一貫して優れていた。
関連論文リスト
- Cross-Domain Offline Policy Adaptation via Selective Transition Correction [29.251685312287155]
強化学習(RL)におけるミスマッチした力学を持つ領域をまたいだ政策の適応は依然として重要な課題である。
そこでは、他の類似ソースドメインからのオフラインデータセットにアクセスして、ターゲットドメインデータセットに対するポリシー学習を強化する。
本稿では,選択遷移補正 (STC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-05T15:37:29Z) - MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning [25.497449531415125]
オフラインソースと限られたターゲットデータセットからポリシーを学習することを目的として、オフライン強化学習をオフラインで研究する。
学習対象の動的遷移を用いたポリシーを最適化するモデルベースオフダイナミックスオフラインRLアルゴリズムMOBODYを提案する。
我々はMOBODYを幅広い MuJoCo および Adroit ベンチマークで評価し、最先端のオフダイナミックス RL ベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-06-10T05:36:54Z) - DIDS: Domain Impact-aware Data Sampling for Large Language Model Training [61.10643823069603]
大規模言語モデルに対するドメインインパクト対応データサンプリング(DIDS)を提案する。
学習効果に基づくDIDSグループトレーニングデータでは、プロキシ言語モデルと次元削減が使用される。
同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
論文 参考訳(メタデータ) (2025-04-17T13:09:38Z) - ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z) - Navigating the Kaleidoscope of COVID-19 Misinformation Using Deep
Learning [0.76146285961466]
対象ドメインの局所的コンテキストとグローバル的コンテキストの両方をキャプチャする効果的なモデルを提案する。
i) 深層トランスフォーマーをベースとした事前学習モデルでは, 混合ドメイン変換学習が有効であり, 局所的な文脈を捉えるのが得意であり, 一般化が不十分である。
浅いネットワークベースのドメイン固有モデルと畳み込みニューラルネットワークの組み合わせは、階層的な方法でターゲットデータから局所的およびグローバル的コンテキストを直接抽出し、より一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2021-09-19T15:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。