論文の概要: Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.12448v2
- Date: Tue, 3 Sep 2024 18:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:06:01.185680
- Title: Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning
- Title(参考訳): オフライン-オンライン強化学習のためのエネルギー誘導拡散サンプリング
- Authors: Xu-Hui Liu, Tian-Shuo Liu, Shengyi Jiang, Ruifeng Chen, Zhilong Zhang, Xinwei Chen, Yang Yu,
- Abstract要約: textbfEnergy-guided textbfDIffusion textbfSampling (EDIS)を紹介する。
EDISは拡散モデルを用いてオフラインデータセットから事前知識を抽出し、オンラインフェーズにおけるデータ生成の強化のためにエネルギー関数を用いてこの知識を蒸留する。
また,MuJoCo,AntMaze,Adroit環境において,経験的性能の20%向上が目覚ましい。
- 参考スコア(独自算出の注目度): 13.802860320234469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combining offline and online reinforcement learning (RL) techniques is indeed crucial for achieving efficient and safe learning where data acquisition is expensive. Existing methods replay offline data directly in the online phase, resulting in a significant challenge of data distribution shift and subsequently causing inefficiency in online fine-tuning. To address this issue, we introduce an innovative approach, \textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling (EDIS), which utilizes a diffusion model to extract prior knowledge from the offline dataset and employs energy functions to distill this knowledge for enhanced data generation in the online phase. The theoretical analysis demonstrates that EDIS exhibits reduced suboptimality compared to solely utilizing online data or directly reusing offline data. EDIS is a plug-in approach and can be combined with existing methods in offline-to-online RL setting. By implementing EDIS to off-the-shelf methods Cal-QL and IQL, we observe a notable 20% average improvement in empirical performance on MuJoCo, AntMaze, and Adroit environments. Code is available at \url{https://github.com/liuxhym/EDIS}.
- Abstract(参考訳): オフラインとオンラインの強化学習(RL)技術を組み合わせることは、データ取得が高価である効率的な安全な学習を実現する上で、本当に重要です。
既存の方法はオフラインデータをオンラインフェーズで直接再生するので、データ分散シフトの大きな課題となり、オンラインの微調整では非効率になる。
この問題に対処するため,我々は,オフラインデータセットから事前知識を抽出する拡散モデルを用いて,この知識をオンラインフェーズにおける拡張データ生成のために抽出するためにエネルギー関数を利用する,革新的アプローチである『textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling』(EDIS)を導入する。
この理論解析は、EDISがオンラインデータのみを利用する場合やオフラインデータを直接利用する場合に比べて、最適でないことが示されている。
EDISはプラグインのアプローチであり、オフラインからオフラインのRL設定で既存のメソッドと組み合わせることができる。
既成のメソッドであるCal-QLとIQLにEDISを実装することで、MuJoCo、AntMaze、Adroit環境上での実証的なパフォーマンスの平均20%の改善が目覚ましい。
コードは \url{https://github.com/liuxhym/EDIS} で入手できる。
関連論文リスト
- Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。
アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Dual Generator Offline Reinforcement Learning [90.05278061564198]
オフラインのRLでは、学習したポリシーをデータに近づき続けることが不可欠である。
実際には、GANベースのオフラインRL法は代替手法と同様に実行されていない。
2つのジェネレータを持つことにより、有効なGANベースのオフラインRL法が実現されるだけでなく、サポート制約を近似することも示している。
論文 参考訳(メタデータ) (2022-11-02T20:25:18Z) - DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement
Learning [17.664027379555183]
オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスを取得できないような設定に適用されることを約束する。
本稿では,他のダイナミックスから収集した(ソース)オフラインデータを用いて,大規模な(ターゲット)オフラインデータの要求を緩和することで,オフラインダイナミックス適応を定式化する。
ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2022-03-13T14:30:55Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。