Fugu-MT 論文翻訳(概要): COOPO: Cyclic Offline-Online Policy Optimization Algorithm

論文の概要: COOPO: Cyclic Offline-Online Policy Optimization Algorithm

arxiv url: http://arxiv.org/abs/2605.18675v1
Date: Mon, 18 May 2026 17:15:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:50.19046
Title: COOPO: Cyclic Offline-Online Policy Optimization Algorithm
Title（参考訳）: COOPO: 周期的オフラインポリシー最適化アルゴリズム
Authors: Qisai Liu, Zhanhong Jiang, Joshua Russell Waite, Aditya Balu, Cody Fleming, Soumik Sarkar,
Abstract要約: オフラインからオフラインへの手法は、移行中に分布のドリフトに悩まされ、オフラインの知識を破滅的に忘れてしまう。制約付きオフライントレーニングとオンラインファインチューニングの間を繰り返し循環するフレームワークであるCOOPOを紹介します。理論的には、COOPOは純粋なオンラインRLよりも優れたオンラインサンプル効率を実現し、モノトニックな改善が保証されている。
参考スコア（独自算出の注目度）: 9.685147797706035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning struggles with distributional shift and constrained performance due to static dataset limitations, while online RL demands prohibitive environment interactions. The recent advent of hybrid offline-to-online methods bridges these domains but suffers from distribution drift during transitions and catastrophic forgetting of offline knowledge. We introduce COOPO (Cyclic Offline-Online Policy Optimization), a generalized framework that repeatedly cycles between constrained offline training and online fine-tuning. Each cycle first anchors the policy to the dataset via KL-regularized advantage-weighted offline updates to minimize distributional shift and then fine-tunes it online using any policy optimization for stable exploration. Crucially, periodically returning to offline training eliminates forgetting and drift while maximizing dataset reuse. The cyclic behavior also helps reduce the online environment interactions. Theoretically, COOPO achieves better online sample efficiency, surpassing pure online RL, with guaranteed monotonic improvement under standard coverage assumptions. Extensive D4RL benchmarks demonstrate COOPO reduces online interactions versus state-of-the-art hybrids while improving final returns, maintaining robustness across diverse offline algorithms and online optimizers. This looped synergy sets new efficiency and performance standards for adaptive RL.
Abstract（参考訳）: オフライン強化学習は、静的データセット制限による分散シフトと制約されたパフォーマンスに苦慮する一方、オンラインRLは環境相互作用を禁止している。最近のオフライン-オフラインのハイブリッド手法の出現は、これらのドメインを橋渡しするが、移行中の分布のドリフトや、オフライン知識の破滅的な忘れ込みに悩まされている。 COOPO(Cyclic Offline-Online Policy Optimization)は,制約付きオフライントレーニングとオンラインファインチューニングの間を繰り返し循環する汎用フレームワークである。各サイクルは、まずKLを調整したアドバンテージ重み付けされたオフラインアップデートを通じてデータセットにポリシーを固定し、分散シフトを最小限に抑え、安定した探索のためにポリシー最適化を使用してオンラインで微調整する。重要なことに、定期的にオフライントレーニングに戻ると、データセットの再利用を最大化しながら、忘れとドリフトがなくなる。循環的行動は、オンライン環境の相互作用を減らすのにも役立ちます。理論的には、COOPOはオンラインのサンプル効率を向上し、純粋なオンラインRLを超え、標準カバレッジの仮定の下で単調な改善が保証される。大規模なD4RLベンチマークは、COOPOがオンラインインタラクションと最先端ハイブリッドを削減し、最終的なリターンを改善し、多様なオフラインアルゴリズムとオンラインオプティマイザ間の堅牢性を維持することを実証している。このループ型シナジーは、適応RLのための新しい効率と性能標準を設定する。

論文の概要: COOPO: Cyclic Offline-Online Policy Optimization Algorithm

関連論文リスト