論文の概要: MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.08460v1
- Date: Tue, 10 Jun 2025 05:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.563575
- Title: MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning
- Title(参考訳): MOBODY: モデルに基づくオフライン強化学習
- Authors: Yihong Guo, Yu Yang, Pan Xu, Anqi Liu,
- Abstract要約: 我々はオフラインのオフライン強化学習問題について検討し、そこでは、不一致の遷移を伴うオフラインデータセットからポリシーを学ぶことを目標としている。
モデルベースオフダイナミックスオフラインRLアルゴリズムMOBODYを提案する。
我々は MuJoCo ベンチマーク上で MOBODY を評価し,最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 15.474954145228518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the off-dynamics offline reinforcement learning problem, where the goal is to learn a policy from offline datasets collected from source and target domains with mismatched transition. Existing off-dynamics offline RL methods typically either filter source transitions that resemble those of the target domain or apply reward augmentation to source data, both constrained by the limited transitions available from the target domain. As a result, the learned policy is unable to explore target domain beyond the offline datasets. We propose MOBODY, a Model-Based Off-Dynamics offline RL algorithm that addresses this limitation by enabling exploration of the target domain via learned dynamics. MOBODY generates new synthetic transitions in the target domain through model rollouts, which are used as data augmentation during offline policy learning. Unlike existing model-based methods that learn dynamics from a single domain, MOBODY tackles the challenge of mismatched dynamics by leveraging both source and target datasets. Directly merging these datasets can bias the learned model toward source dynamics. Instead, MOBODY learns target dynamics by discovering a shared latent representation of states and transitions across domains through representation learning. To stabilize training, MOBODY incorporates a behavior cloning loss that regularizes the policy. Specifically, we introduce a Q-weighted behavior cloning loss that regularizes the policy toward actions with high target-domain Q-values, rather than uniformly imitating all actions in the dataset. These Q-values are learned from an enhanced target dataset composed of offline target data, augmented source data, and rollout data from the learned target dynamics. We evaluate MOBODY on MuJoCo benchmarks and show that it significantly outperforms state-of-the-art baselines, with especially pronounced improvements in challenging scenarios.
- Abstract(参考訳): そこでは、ソースとターゲットドメインから収集したオフラインデータセットからポリシーを、ミスマッチしたトランジションで学習することを目的としている。
既存のオフラインRLメソッドは、典型的には、ターゲットドメインのものと類似したソース遷移をフィルタリングするか、あるいはソースデータに報酬増強を適用するかのいずれかであり、どちらもターゲットドメインから利用可能な制限された遷移によって制約される。
その結果、学習したポリシは、オフラインデータセットを越えてターゲットドメインを探索することができない。
そこで本研究では,モデルに基づくオフラインRLアルゴリズムMOBODYを提案する。
MOBODYは、オフラインポリシー学習中にデータ拡張として使用されるモデルロールアウトを通じて、ターゲットドメインで新たな合成トランジションを生成する。
単一のドメインからダイナミクスを学習する既存のモデルベースの方法とは異なり、MOBODYはソースとターゲット両方のデータセットを活用することで、ミスマッチしたダイナミクスの課題に取り組む。
これらのデータセットを直接マージすることで、学習したモデルをソースダイナミクスにバイアスすることができる。
代わりにMOBODYは、表現学習を通じて状態とドメイン間の遷移の共有潜在表現を発見し、ターゲットダイナミクスを学習する。
トレーニングを安定させるために、MOBODYはポリシーを標準化する行動クローニング損失を取り入れている。
具体的には、データセット内の全てのアクションを均一に模倣するのではなく、高い目標領域のQ値を持つアクションに対するポリシーを規則化するQ重み付き行動クローン損失を導入する。
これらのQ値は、オフラインターゲットデータ、拡張ソースデータ、学習対象ダイナミクスからのロールアウトデータからなる拡張ターゲットデータセットから学習される。
我々はMoBODYを MuJoCo ベンチマークで評価し,現状のベースラインを著しく上回り,特に挑戦的なシナリオの改善が顕著であることを示す。
関連論文リスト
- Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - RAIN: RegulArization on Input and Network for Black-Box Domain
Adaptation [80.03883315743715]
ソースのないドメイン適応は、ソースデータを公開することなく、ソース訓練されたモデルをターゲットドメインに転送する。
このパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。
そこで我々は,入力レベルとネットワークレベルの両方の正規化からブラックボックスドメインを適応させる新しい手法であるRAIN(RegulArization on Input and Network)を提案する。
論文 参考訳(メタデータ) (2022-08-22T18:18:47Z) - DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement
Learning [17.664027379555183]
オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスを取得できないような設定に適用されることを約束する。
本稿では,他のダイナミックスから収集した(ソース)オフラインデータを用いて,大規模な(ターゲット)オフラインデータの要求を緩和することで,オフラインダイナミックス適応を定式化する。
ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2022-03-13T14:30:55Z) - Offline Reinforcement Learning with Reverse Model-based Imagination [25.376888160137973]
オフライン強化学習(オフラインRL)では、学習ポリシーと与えられたデータセットの分散シフトを扱うことが主な課題である。
最近のオフラインRL法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようとしている。
我々は、Reverse Offline Model-based Imagination (ROMI)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T03:13:22Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。