論文の概要: COOPO: Cyclic Offline-Online Policy Optimization Algorithm
- arxiv url: http://arxiv.org/abs/2605.18675v1
- Date: Mon, 18 May 2026 17:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.19046
- Title: COOPO: Cyclic Offline-Online Policy Optimization Algorithm
- Title(参考訳): COOPO: 周期的オフラインポリシー最適化アルゴリズム
- Authors: Qisai Liu, Zhanhong Jiang, Joshua Russell Waite, Aditya Balu, Cody Fleming, Soumik Sarkar,
- Abstract要約: オフラインからオフラインへの手法は、移行中に分布のドリフトに悩まされ、オフラインの知識を破滅的に忘れてしまう。
制約付きオフライントレーニングとオンラインファインチューニングの間を繰り返し循環するフレームワークであるCOOPOを紹介します。
理論的には、COOPOは純粋なオンラインRLよりも優れたオンラインサンプル効率を実現し、モノトニックな改善が保証されている。
- 参考スコア(独自算出の注目度): 9.685147797706035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning struggles with distributional shift and constrained performance due to static dataset limitations, while online RL demands prohibitive environment interactions. The recent advent of hybrid offline-to-online methods bridges these domains but suffers from distribution drift during transitions and catastrophic forgetting of offline knowledge. We introduce COOPO (Cyclic Offline-Online Policy Optimization), a generalized framework that repeatedly cycles between constrained offline training and online fine-tuning. Each cycle first anchors the policy to the dataset via KL-regularized advantage-weighted offline updates to minimize distributional shift and then fine-tunes it online using any policy optimization for stable exploration. Crucially, periodically returning to offline training eliminates forgetting and drift while maximizing dataset reuse. The cyclic behavior also helps reduce the online environment interactions. Theoretically, COOPO achieves better online sample efficiency, surpassing pure online RL, with guaranteed monotonic improvement under standard coverage assumptions. Extensive D4RL benchmarks demonstrate COOPO reduces online interactions versus state-of-the-art hybrids while improving final returns, maintaining robustness across diverse offline algorithms and online optimizers. This looped synergy sets new efficiency and performance standards for adaptive RL.
- Abstract(参考訳): オフライン強化学習は、静的データセット制限による分散シフトと制約されたパフォーマンスに苦慮する一方、オンラインRLは環境相互作用を禁止している。
最近のオフライン-オフラインのハイブリッド手法の出現は、これらのドメインを橋渡しするが、移行中の分布のドリフトや、オフライン知識の破滅的な忘れ込みに悩まされている。
COOPO(Cyclic Offline-Online Policy Optimization)は,制約付きオフライントレーニングとオンラインファインチューニングの間を繰り返し循環する汎用フレームワークである。
各サイクルは、まずKLを調整したアドバンテージ重み付けされたオフラインアップデートを通じてデータセットにポリシーを固定し、分散シフトを最小限に抑え、安定した探索のためにポリシー最適化を使用してオンラインで微調整する。
重要なことに、定期的にオフライントレーニングに戻ると、データセットの再利用を最大化しながら、忘れとドリフトがなくなる。
循環的行動は、オンライン環境の相互作用を減らすのにも役立ちます。
理論的には、COOPOはオンラインのサンプル効率を向上し、純粋なオンラインRLを超え、標準カバレッジの仮定の下で単調な改善が保証される。
大規模なD4RLベンチマークは、COOPOがオンラインインタラクションと最先端ハイブリッドを削減し、最終的なリターンを改善し、多様なオフラインアルゴリズムとオンラインオプティマイザ間の堅牢性を維持することを実証している。
このループ型シナジーは、適応RLのための新しい効率と性能標準を設定する。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。
近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。
この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:52:22Z) - Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness [11.241036026084222]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。
ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。
本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T04:42:50Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。