論文の概要: MOORL: A Framework for Integrating Offline-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.09574v1
- Date: Wed, 11 Jun 2025 10:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.848388
- Title: MOORL: A Framework for Integrating Offline-Online Reinforcement Learning
- Title(参考訳): MOORL:オフライン強化学習の統合フレームワーク
- Authors: Gaurav Chaudhary, Wassim Uddin Mondal, Laxmidhar Behera,
- Abstract要約: オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。
提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。
計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
- 参考スコア(独自算出の注目度): 6.7265073544042995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency and exploration remain critical challenges in Deep Reinforcement Learning (DRL), particularly in complex domains. Offline RL, which enables agents to learn optimal policies from static, pre-collected datasets, has emerged as a promising alternative. However, offline RL is constrained by issues such as out-of-distribution (OOD) actions that limit policy performance and generalization. To overcome these limitations, we propose Meta Offline-Online Reinforcement Learning (MOORL), a hybrid framework that unifies offline and online RL for efficient and scalable learning. While previous hybrid methods rely on extensive design components and added computational complexity to utilize offline data effectively, MOORL introduces a meta-policy that seamlessly adapts across offline and online trajectories. This enables the agent to leverage offline data for robust initialization while utilizing online interactions to drive efficient exploration. Our theoretical analysis demonstrates that the hybrid approach enhances exploration by effectively combining the complementary strengths of offline and online data. Furthermore, we demonstrate that MOORL learns a stable Q-function without added complexity. Extensive experiments on 28 tasks from the D4RL and V-D4RL benchmarks validate its effectiveness, showing consistent improvements over state-of-the-art offline and hybrid RL baselines. With minimal computational overhead, MOORL achieves strong performance, underscoring its potential for practical applications in real-world scenarios.
- Abstract(参考訳): サンプル効率と探索は、Deep Reinforcement Learning(DRL)、特に複雑な領域において重要な課題である。
エージェントが静的で事前にコンパイルされたデータセットから最適なポリシを学ぶことができるオフラインRLが、有望な代替手段として登場した。
しかし、オフラインRLは、政策性能と一般化を制限するアウト・オブ・ディストリビューション(OOD)アクションのような問題によって制約される。
これらの制約を克服するために,オフラインとオンラインのRLを統合化して,効率的かつスケーラブルな学習を行うハイブリッドフレームワークであるMeta Offline-Online Reinforcement Learning (MOORL)を提案する。
従来のハイブリッドメソッドは、オフラインデータを効果的に活用するために、広範な設計コンポーネントと計算複雑性を追加していたが、MOORLは、オフラインとオンラインのトラジェクトリ間でシームレスに適応するメタポリシーを導入した。
これにより、エージェントはオフラインデータを堅牢な初期化に活用し、オンラインインタラクションを活用して効率的な探索を行うことができる。
提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。
さらに、MOORLは複雑さを増すことなく安定なQ-関数を学習することを示した。
D4RLとV-D4RLベンチマークによる28のタスクに対する大規模な実験は、その有効性を評価し、最先端のオフラインおよびハイブリッドRLベースラインに対する一貫した改善を示している。
計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。