論文の概要: Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only
- arxiv url: http://arxiv.org/abs/2505.16856v1
- Date: Thu, 22 May 2025 16:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.44746
- Title: Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only
- Title(参考訳): オフライン事前学習政策のみを考慮したオンラインRLファインチューニング
- Authors: Wei Xiao, Jiacheng Liu, Zifeng Zhuang, Runze Suo, Shangke Lyu, Donglin Wang,
- Abstract要約: 既存のオンライン強化学習(RL)ファインチューニング手法では、安定性と性能のために、オフラインで事前訓練されたQ-関数によるトレーニングを継続する必要がある。
オフライン事前学習ポリシーのみを用いたオンラインRLファインチューニング手法を提案する。
PORL(Policy-Only Reinforcement Learning Fine-Tuning)を導入し、オンライン段階でQ-関数をスクラッチから迅速に初期化する。
- 参考スコア(独自算出の注目度): 22.94253602450729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the performance of pre-trained policies through online reinforcement learning (RL) is a critical yet challenging topic. Existing online RL fine-tuning methods require continued training with offline pretrained Q-functions for stability and performance. However, these offline pretrained Q-functions commonly underestimate state-action pairs beyond the offline dataset due to the conservatism in most offline RL methods, which hinders further exploration when transitioning from the offline to the online setting. Additionally, this requirement limits their applicability in scenarios where only pre-trained policies are available but pre-trained Q-functions are absent, such as in imitation learning (IL) pre-training. To address these challenges, we propose a method for efficient online RL fine-tuning using solely the offline pre-trained policy, eliminating reliance on pre-trained Q-functions. We introduce PORL (Policy-Only Reinforcement Learning Fine-Tuning), which rapidly initializes the Q-function from scratch during the online phase to avoid detrimental pessimism. Our method not only achieves competitive performance with advanced offline-to-online RL algorithms and online RL approaches that leverage data or policies prior, but also pioneers a new path for directly fine-tuning behavior cloning (BC) policies.
- Abstract(参考訳): オンライン強化学習(RL)による事前学習政策の性能向上は,重要な課題である。
既存のオンラインRLファインチューニング手法では、安定性と性能のために、オフラインで事前訓練されたQ-関数による継続的なトレーニングが必要である。
しかしながら、これらのオフライン事前トレーニングされたQ-関数は、ほとんどのオフラインRLメソッドの保守性のため、通常、オフラインデータセットを超えて状態-アクションペアを過小評価する。
さらに、この要件は、事前訓練されたポリシーのみが利用可能だが、事前訓練されたQ-関数が欠如しているシナリオにおける適用性を制限する。
これらの課題に対処するため、オフライン事前学習ポリシーのみを用いたオンラインRLファインチューニング手法を提案し、事前学習Q関数への依存を排除した。
PORL(Policy-Only Reinforcement Learning Fine-Tuning)を導入し、オンライン段階でQ-関数をスクラッチから迅速に初期化する。
我々の手法は、オフラインからオフラインまでの高度なRLアルゴリズムと、それ以前のデータやポリシーを利用するオンラインRLアプローチと競合する性能を得るだけでなく、直接調整行動クローニング(BC)ポリシーの新たな道のりを開拓する。
関連論文リスト
- Online Pre-Training for Offline-to-Online Reinforcement Learning [21.146400629843015]
オフライン事前学習エージェントにおける不正確な値推定の問題に対処するために,オフラインからオフラインへのRL(OPT)のオンライン事前学習を提案する。
OPTは新しい学習フェーズであるOnline Pre-Trainingを導入し、オンラインの効果的な微調整に特化した新しい価値関数のトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-07-11T08:00:12Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online
Fine-Tuning [104.05522247411018]
オフライン強化学習(RL)手法は微調整中は動作が悪くなる傾向がある。
このような校正値関数を学習するオフラインRLアルゴリズムが効果的なオンライン微調整につながることを示す。
実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。
論文 参考訳(メタデータ) (2023-03-09T18:31:13Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。