論文の概要: Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data
- arxiv url: http://arxiv.org/abs/2412.07762v2
- Date: Wed, 11 Dec 2024 18:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:46.617696
- Title: Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data
- Title(参考訳): オフラインデータを保持する必要のないオンライン強化学習の効率化
- Authors: Zhiyuan Zhou, Andy Peng, Qiyang Li, Sergey Levine, Aviral Kumar,
- Abstract要約: オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 64.74333980417235
- License:
- Abstract: The modern paradigm in machine learning involves pre-training on diverse data, followed by task-specific fine-tuning. In reinforcement learning (RL), this translates to learning via offline RL on a diverse historical dataset, followed by rapid online RL fine-tuning using interaction data. Most RL fine-tuning methods require continued training on offline data for stability and performance. However, this is undesirable because training on diverse offline data is slow and expensive for large datasets, and in principle, also limit the performance improvement possible because of constraints or pessimism on offline data. In this paper, we show that retaining offline data is unnecessary as long as we use a properly-designed online RL approach for fine-tuning offline RL initializations. To build this approach, we start by analyzing the role of retaining offline data in online fine-tuning. We find that continued training on offline data is mostly useful for preventing a sudden divergence in the value function at the onset of fine-tuning, caused by a distribution mismatch between the offline data and online rollouts. This divergence typically results in unlearning and forgetting the benefits of offline pre-training. Our approach, Warm-start RL (WSRL), mitigates the catastrophic forgetting of pre-trained initializations using a very simple idea. WSRL employs a warmup phase that seeds the online RL run with a very small number of rollouts from the pre-trained policy to do fast online RL. The data collected during warmup helps ``recalibrate'' the offline Q-function to the online distribution, allowing us to completely discard offline data without destabilizing the online RL fine-tuning. We show that WSRL is able to fine-tune without retaining any offline data, and is able to learn faster and attains higher performance than existing algorithms irrespective of whether they retain offline data or not.
- Abstract(参考訳): 機械学習の現代的なパラダイムには、さまざまなデータに対する事前トレーニングと、タスク固有の微調整が含まれる。
強化学習(RL)では、さまざまな履歴データセット上のオフラインRLによる学習と、対話データを使用した高速オンラインRL微調整が続く。
ほとんどのRL微調整法は、安定性と性能のためにオフラインデータの継続的なトレーニングを必要とする。
しかし、これは、多様なオフラインデータのトレーニングが大規模なデータセットでは遅くて高価であるため、望ましくない。
本稿では、オフラインRLの初期化を微調整するために、適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
このアプローチを構築するために、オンラインの微調整におけるオフラインデータの保持の役割を分析することから始める。
オフラインデータに対する継続的なトレーニングは,オフラインデータとオンラインロールアウト間の分散ミスマッチに起因する微調整開始時の値関数の急激なばらつきを防止するのに有効であることがわかった。
このばらつきは、通常、学びをなくし、オフラインの事前トレーニングの利点を忘れてしまう。
我々のアプローチであるWarm-start RL (WSRL) は、非常に単純なアイデアを用いて、事前学習した初期化の破滅的な忘れを省く。
WSRLは、オンラインRLを高速に実行するための事前訓練されたポリシーから非常に少数のロールアウトで、オンラインRLをシードするウォームアップフェーズを採用している。
ウォームアップ時に収集されたデータは、オフラインのQ-関数をオンライン配信に'再校正'するのに役立ち、オンラインRLの微調整を不安定にすることなく、オフラインデータを完全に破棄することができます。
我々は、WSRLがオフラインデータを保持することなく微調整が可能であり、オフラインデータを保持するかどうかに関わらず、より速く学習でき、既存のアルゴリズムよりも高いパフォーマンスが得られることを示す。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。
アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Leveraging Offline Data in Online Reinforcement Learning [24.18369781999988]
強化学習(RL)コミュニティには,オンラインRLとオフラインRLという,2つの中心的なパラダイムが出現している。
オンラインRL設定では、エージェントは環境に関する事前の知識を持っておらず、$epsilon$-Optimal Policyを見つけるためには、それと対話する必要がある。
オフラインのRL設定では、学習者はそこから学ぶために固定されたデータセットにアクセスするが、それ以外は環境との相互作用ができず、このオフラインデータから可能な限りのポリシーを取得する必要がある。
論文 参考訳(メタデータ) (2022-11-09T15:39:32Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。