論文の概要: Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation
- arxiv url: http://arxiv.org/abs/2508.06806v1
- Date: Sat, 09 Aug 2025 03:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.557469
- Title: Offline-to-Online Reinforcement Learning with Classifier-Free Diffusion Generation
- Title(参考訳): クラシファイアフリー拡散生成を用いたオフライン・オンライン強化学習
- Authors: Xiao Huang, Xu Liu, Enze Zhang, Tong Yu, Shuai Li,
- Abstract要約: Offline-to-online Reinforcement Learning (O2O RL)は、オフラインでトレーニング済みのポリシーをオンラインで微調整することで、コストのかかるオンラインインタラクションを最小化することを目的としている。
既存の作業では、オフラインデータセットを使用して、データ拡張のためのオンラインデータ配布に準拠したデータを生成する。
拡散自由生成(CFDG)という新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 22.13678670717358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online Reinforcement Learning (O2O RL) aims to perform online fine-tuning on an offline pre-trained policy to minimize costly online interactions. Existing work used offline datasets to generate data that conform to the online data distribution for data augmentation. However, generated data still exhibits a gap with the online data, limiting overall performance. To address this, we propose a new data augmentation approach, Classifier-Free Diffusion Generation (CFDG). Without introducing additional classifier training overhead, CFDG leverages classifier-free guidance diffusion to significantly enhance the generation quality of offline and online data with different distributions. Additionally, it employs a reweighting method to enable more generated data to align with the online data, enhancing performance while maintaining the agent's stability. Experimental results show that CFDG outperforms replaying the two data types or using a standard diffusion model to generate new data. Our method is versatile and can be integrated with existing offline-to-online RL algorithms. By implementing CFDG to popular methods IQL, PEX and APL, we achieve a notable 15% average improvement in empirical performance on the D4RL benchmark such as MuJoCo and AntMaze.
- Abstract(参考訳): Offline-to-online Reinforcement Learning (O2O RL)は、オフラインでトレーニング済みのポリシーをオンラインで微調整することで、コストのかかるオンラインインタラクションを最小化することを目的としている。
既存の作業では、オフラインデータセットを使用して、データ拡張のためのオンラインデータ配布に準拠したデータを生成する。
しかし、生成されたデータは依然としてオンラインデータとギャップがあり、全体的なパフォーマンスが制限される。
そこで本研究では,新たなデータ拡張手法であるCFDG(Classifier-Free Diffusion Generation)を提案する。
CFDGは、追加の分類器トレーニングオーバーヘッドを導入することなく、分類器なし誘導拡散を利用して、異なる分布を持つオフラインおよびオンラインデータの生成品質を著しく向上させる。
さらに、より生成されたデータがオンラインデータと整合し、エージェントの安定性を維持しながらパフォーマンスを向上させるために、再重み付け方式を採用している。
実験の結果,CFDGは2つのデータ型を再生するか,あるいは標準拡散モデルを用いて新しいデータを生成する。
提案手法は汎用的で,既存のオフライン-オフラインRLアルゴリズムと統合可能である。
CFDGを一般的なメソッドIQL、PEX、APLに実装することで、MuJoCoやAntMazeといったD4RLベンチマークで、実験的なパフォーマンスが15%向上した。
関連論文リスト
- Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。
オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。
本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。
タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T14:08:36Z) - Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data [32.7248232143849]
オフラインデータの活用は、オンライン強化学習(RL)のサンプル効率を向上させるための有望な方法である
本稿では、報酬のない、混合品質の豊富な非キュレートデータを利用して、オフラインからオフラインへのRLのための使用可能なデータのプールを拡張し、複数の実施形態にまたがって収集する。
論文 参考訳(メタデータ) (2025-02-26T20:34:29Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [3.5775697416994485]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。
GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。
我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-29T16:42:30Z) - Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning [13.802860320234469]
textbfEnergy-guided textbfDIffusion textbfSampling (EDIS)を紹介する。
EDISは拡散モデルを用いてオフラインデータセットから事前知識を抽出し、オンラインフェーズにおけるデータ生成の強化のためにエネルギー関数を用いてこの知識を蒸留する。
また,MuJoCo,AntMaze,Adroit環境において,経験的性能の20%向上が目覚ましい。
論文 参考訳(メタデータ) (2024-07-17T09:56:51Z) - ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。