論文の概要: Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only
- arxiv url: http://arxiv.org/abs/2505.16856v1
- Date: Thu, 22 May 2025 16:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.44746
- Title: Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only
- Title(参考訳): オフライン事前学習政策のみを考慮したオンラインRLファインチューニング
- Authors: Wei Xiao, Jiacheng Liu, Zifeng Zhuang, Runze Suo, Shangke Lyu, Donglin Wang,
- Abstract要約: 既存のオンライン強化学習(RL)ファインチューニング手法では、安定性と性能のために、オフラインで事前訓練されたQ-関数によるトレーニングを継続する必要がある。
オフライン事前学習ポリシーのみを用いたオンラインRLファインチューニング手法を提案する。
PORL(Policy-Only Reinforcement Learning Fine-Tuning)を導入し、オンライン段階でQ-関数をスクラッチから迅速に初期化する。
- 参考スコア(独自算出の注目度): 22.94253602450729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the performance of pre-trained policies through online reinforcement learning (RL) is a critical yet challenging topic. Existing online RL fine-tuning methods require continued training with offline pretrained Q-functions for stability and performance. However, these offline pretrained Q-functions commonly underestimate state-action pairs beyond the offline dataset due to the conservatism in most offline RL methods, which hinders further exploration when transitioning from the offline to the online setting. Additionally, this requirement limits their applicability in scenarios where only pre-trained policies are available but pre-trained Q-functions are absent, such as in imitation learning (IL) pre-training. To address these challenges, we propose a method for efficient online RL fine-tuning using solely the offline pre-trained policy, eliminating reliance on pre-trained Q-functions. We introduce PORL (Policy-Only Reinforcement Learning Fine-Tuning), which rapidly initializes the Q-function from scratch during the online phase to avoid detrimental pessimism. Our method not only achieves competitive performance with advanced offline-to-online RL algorithms and online RL approaches that leverage data or policies prior, but also pioneers a new path for directly fine-tuning behavior cloning (BC) policies.
- Abstract(参考訳): オンライン強化学習(RL)による事前学習政策の性能向上は,重要な課題である。
既存のオンラインRLファインチューニング手法では、安定性と性能のために、オフラインで事前訓練されたQ-関数による継続的なトレーニングが必要である。
しかしながら、これらのオフライン事前トレーニングされたQ-関数は、ほとんどのオフラインRLメソッドの保守性のため、通常、オフラインデータセットを超えて状態-アクションペアを過小評価する。
さらに、この要件は、事前訓練されたポリシーのみが利用可能だが、事前訓練されたQ-関数が欠如しているシナリオにおける適用性を制限する。
これらの課題に対処するため、オフライン事前学習ポリシーのみを用いたオンラインRLファインチューニング手法を提案し、事前学習Q関数への依存を排除した。
PORL(Policy-Only Reinforcement Learning Fine-Tuning)を導入し、オンライン段階でQ-関数をスクラッチから迅速に初期化する。
我々の手法は、オフラインからオフラインまでの高度なRLアルゴリズムと、それ以前のデータやポリシーを利用するオンラインRLアプローチと競合する性能を得るだけでなく、直接調整行動クローニング(BC)ポリシーの新たな道のりを開拓する。
関連論文リスト
- Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online
Fine-Tuning [104.05522247411018]
オフライン強化学習(RL)手法は微調整中は動作が悪くなる傾向がある。
このような校正値関数を学習するオフラインRLアルゴリズムが効果的なオンライン微調整につながることを示す。
実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。
論文 参考訳(メタデータ) (2023-03-09T18:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。