Fugu-MT 論文翻訳(概要): Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning

論文の概要: Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.12448v2
Date: Tue, 3 Sep 2024 18:40:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 02:06:01.185680
Title: Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning
Title（参考訳）: オフライン-オンライン強化学習のためのエネルギー誘導拡散サンプリング
Authors: Xu-Hui Liu, Tian-Shuo Liu, Shengyi Jiang, Ruifeng Chen, Zhilong Zhang, Xinwei Chen, Yang Yu,
Abstract要約: textbfEnergy-guided textbfDIffusion textbfSampling (EDIS)を紹介する。 EDISは拡散モデルを用いてオフラインデータセットから事前知識を抽出し、オンラインフェーズにおけるデータ生成の強化のためにエネルギー関数を用いてこの知識を蒸留する。また,MuJoCo,AntMaze,Adroit環境において,経験的性能の20%向上が目覚ましい。
参考スコア（独自算出の注目度）: 13.802860320234469
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Combining offline and online reinforcement learning (RL) techniques is indeed crucial for achieving efficient and safe learning where data acquisition is expensive. Existing methods replay offline data directly in the online phase, resulting in a significant challenge of data distribution shift and subsequently causing inefficiency in online fine-tuning. To address this issue, we introduce an innovative approach, \textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling (EDIS), which utilizes a diffusion model to extract prior knowledge from the offline dataset and employs energy functions to distill this knowledge for enhanced data generation in the online phase. The theoretical analysis demonstrates that EDIS exhibits reduced suboptimality compared to solely utilizing online data or directly reusing offline data. EDIS is a plug-in approach and can be combined with existing methods in offline-to-online RL setting. By implementing EDIS to off-the-shelf methods Cal-QL and IQL, we observe a notable 20% average improvement in empirical performance on MuJoCo, AntMaze, and Adroit environments. Code is available at \url{https://github.com/liuxhym/EDIS}.
Abstract（参考訳）: オフラインとオンラインの強化学習(RL)技術を組み合わせることは、データ取得が高価である効率的な安全な学習を実現する上で、本当に重要です。既存の方法はオフラインデータをオンラインフェーズで直接再生するので、データ分散シフトの大きな課題となり、オンラインの微調整では非効率になる。この問題に対処するため,我々は,オフラインデータセットから事前知識を抽出する拡散モデルを用いて,この知識をオンラインフェーズにおける拡張データ生成のために抽出するためにエネルギー関数を利用する,革新的アプローチである『textbf{E}nergy-guided \textbf{DI}ffusion \textbf{S}ampling』(EDIS)を導入する。この理論解析は、EDISがオンラインデータのみを利用する場合やオフラインデータを直接利用する場合に比べて、最適でないことが示されている。 EDISはプラグインのアプローチであり、オフラインからオフラインのRL設定で既存のメソッドと組み合わせることができる。既成のメソッドであるCal-QLとIQLにEDISを実装することで、MuJoCo、AntMaze、Adroit環境上での実証的なパフォーマンスの平均20%の改善が目覚ましい。コードは \url{https://github.com/liuxhym/EDIS} で入手できる。

関連論文リスト

Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文参考訳（メタデータ） (2025-06-11T10:12:50Z)
Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data [32.7248232143849]
オフラインデータの活用は、オンライン強化学習(RL)のサンプル効率を向上させるための有望な方法である本稿では、報酬のない、混合品質の豊富な非キュレートデータを利用して、オフラインからオフラインへのRLのための使用可能なデータのプールを拡張し、複数の実施形態にまたがって収集する。
論文参考訳（メタデータ） (2025-02-26T20:34:29Z)
Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。 Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文参考訳（メタデータ） (2024-12-10T18:57:12Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。 ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文参考訳（メタデータ） (2024-03-19T18:57:53Z)
DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching [21.263554926053178]
オフライン強化学習(RL)では、学習ポリシーのパフォーマンスはオフラインデータセットの品質に大きく依存する。本稿では拡散に基づく新しいデータ拡張パイプラインであるDiffStitchについて紹介する。 DiffStitchは、ローリワード軌道と高リワード軌道を効果的に接続し、オフラインRLアルゴリズムが直面する課題に対処するために、グローバルに最適な軌道を形成する。
論文参考訳（メタデータ） (2024-02-04T10:30:23Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文参考訳（メタデータ） (2023-05-17T15:17:23Z)
Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T08:13:21Z)
Dual Generator Offline Reinforcement Learning [90.05278061564198]
オフラインのRLでは、学習したポリシーをデータに近づき続けることが不可欠である。実際には、GANベースのオフラインRL法は代替手法と同様に実行されていない。 2つのジェネレータを持つことにより、有効なGANベースのオフラインRL法が実現されるだけでなく、サポート制約を近似することも示している。
論文参考訳（メタデータ） (2022-11-02T20:25:18Z)
DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning [17.664027379555183]
オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスを取得できないような設定に適用されることを約束する。本稿では,他のダイナミックスから収集した(ソース)オフラインデータを用いて,大規模な(ターゲット)オフラインデータの要求を緩和することで,オフラインダイナミックス適応を定式化する。ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。
論文参考訳（メタデータ） (2022-03-13T14:30:55Z)
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文参考訳（メタデータ） (2020-10-26T14:31:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。