論文の概要: An Empirical Study on the Effectiveness of Incorporating Offline RL As Online RL Subroutines
- arxiv url: http://arxiv.org/abs/2512.00383v1
- Date: Sat, 29 Nov 2025 08:17:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.210563
- Title: An Empirical Study on the Effectiveness of Incorporating Offline RL As Online RL Subroutines
- Title(参考訳): オンラインRLサブルーチンとしてのオフラインRLの導入効果に関する実証的研究
- Authors: Jianhai Su, Jinzhu Luo, Qi Zhang,
- Abstract要約: オフラインRLアルゴリズムをタブラララサオンラインRLのサブルーチンとして組み込むという新しい視点を採っている。
オンライン学習エージェントは、過去のインタラクションをオフラインデータセットとして再利用できるため、これは実現可能である。
我々は、このアイデアを、オフラインRLのいくつかの変種に対応するフレームワークにフォーマル化する。
- 参考スコア(独自算出の注目度): 8.277534985461477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We take the novel perspective of incorporating offline RL algorithms as subroutines of tabula rasa online RL. This is feasible because an online learning agent can repurpose its historical interactions as offline dataset. We formalize this idea into a framework that accommodates several variants of offline RL incorporation such as final policy recommendation and online fine-tuning. We further introduce convenient techniques to improve its effectiveness in enhancing online learning efficiency. Our extensive and systematic empirical analyses show that 1) the effectiveness of the proposed framework depends strongly on the nature of the task, 2) our proposed techniques greatly enhance its effectiveness, and 3) existing online fine-tuning methods are overall ineffective, calling for more research therein.
- Abstract(参考訳): オフラインRLアルゴリズムをタブラララサオンラインRLのサブルーチンとして組み込むという新しい視点を採っている。
オンライン学習エージェントは、過去のインタラクションをオフラインデータセットとして再利用できるため、これは実現可能である。
我々は、このアイデアを、最終的なポリシーレコメンデーションやオンラインファインチューニングなど、オフラインRLのいくつかの変種に対応するフレームワークにフォーマル化する。
さらに,オンライン学習効率を向上させるための便利な手法についても紹介する。
我々の広範囲かつ体系的な経験分析は、
1)提案手法の有効性は,課題の性質に強く依存する。
2)提案手法は有効性を大幅に向上させ,
3)既存のオンラインファインチューニング手法は全体としては効果がなく,さらなる研究が求められている。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。
近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。
この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:52:22Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。