論文の概要: From Static to Dynamic: Enhancing Offline-to-Online Reinforcement Learning via Energy-Guided Diffusion Stratification
- arxiv url: http://arxiv.org/abs/2511.03828v1
- Date: Wed, 05 Nov 2025 19:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.203412
- Title: From Static to Dynamic: Enhancing Offline-to-Online Reinforcement Learning via Energy-Guided Diffusion Stratification
- Title(参考訳): 静的から動的へ:エネルギー誘導拡散成層によるオフラインからオンラインへの強化学習を促進する
- Authors: Lipeng Zu, Hansong Zhou, Xiaonan Zhang,
- Abstract要約: StratDiffは、オフラインデータセットから事前知識を学ぶための拡散モデルである。
この知識は、エネルギーベースの機能を通じて洗練され、ポリシーの模倣を改善し、オンラインの微調整中にオフラインのようなアクションを生成する。
オフラインライクなサンプルはオフラインで更新され、オンラインライクなサンプルはオンライン学習戦略に従う。
- 参考スコア(独自算出の注目度): 3.2883573376133555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transitioning from offline to online reinforcement learning (RL) poses critical challenges due to distributional shifts between the fixed behavior policy in the offline dataset and the evolving policy during online learning. Although this issue is widely recognized, few methods attempt to explicitly assess or utilize the distributional structure of the offline data itself, leaving a research gap in adapting learning strategies to different types of samples. To address this challenge, we propose an innovative method, Energy-Guided Diffusion Stratification (StratDiff), which facilitates smoother transitions in offline-to-online RL. StratDiff deploys a diffusion model to learn prior knowledge from the offline dataset. It then refines this knowledge through energy-based functions to improve policy imitation and generate offline-like actions during online fine-tuning. The KL divergence between the generated action and the corresponding sampled action is computed for each sample and used to stratify the training batch into offline-like and online-like subsets. Offline-like samples are updated using offline objectives, while online-like samples follow online learning strategies. We demonstrate the effectiveness of StratDiff by integrating it with off-the-shelf methods Cal-QL and IQL. Extensive empirical evaluations on D4RL benchmarks show that StratDiff significantly outperforms existing methods, achieving enhanced adaptability and more stable performance across diverse RL settings.
- Abstract(参考訳): オフラインからオンライン強化学習(RL)への移行は、オフラインデータセットにおける固定行動ポリシーと、オンライン学習中に進化するポリシーとの間の分散的なシフトによって、重要な課題を生んでいる。
この問題は広く認識されているが、オフラインデータ自体の分布構造を明示的に評価または活用しようとする手法はほとんどなく、学習戦略を様々な種類のサンプルに適用する研究のギャップを残している。
この課題に対処するために,オフライン-オンラインRLにおけるスムーズな遷移を容易にする,エネルギー誘導拡散成層法(StratDiff)を提案する。
StratDiffは、オフラインデータセットから事前知識を学ぶために拡散モデルをデプロイする。
そして、この知識をエネルギーベースの機能を通じて洗練し、ポリシーの模倣を改善し、オンラインの微調整中にオフラインのようなアクションを生成する。
生成されたアクションと対応するサンプルアクションとのKLばらつきは、サンプル毎に計算され、トレーニングバッチをオフラインやオンラインのようなサブセットに階層化するために使用される。
オフラインライクなサンプルはオフラインで更新され、オンラインライクなサンプルはオンライン学習戦略に従う。
既製のメソッドであるCal-QLとIQLを統合することで、StratDiffの有効性を実証する。
D4RLベンチマークの大規模な実験により、StratDiffは既存の手法よりも大幅に優れ、適応性の向上とRL設定の安定性の向上を実現している。
関連論文リスト
- Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning [13.802860320234469]
textbfEnergy-guided textbfDIffusion textbfSampling (EDIS)を紹介する。
EDISは拡散モデルを用いてオフラインデータセットから事前知識を抽出し、オンラインフェーズにおけるデータ生成の強化のためにエネルギー関数を用いてこの知識を蒸留する。
また,MuJoCo,AntMaze,Adroit環境において,経験的性能の20%向上が目覚ましい。
論文 参考訳(メタデータ) (2024-07-17T09:56:51Z) - ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。