論文の概要: Efficient Diffusion Policies for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.20081v2
- Date: Thu, 26 Oct 2023 12:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 01:39:18.627716
- Title: Efficient Diffusion Policies for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための効率的な拡散ポリシー
- Authors: Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan
- Abstract要約: Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
- 参考スコア(独自算出の注目度): 85.73757789282212
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn optimal policies from
offline datasets, where the parameterization of policies is crucial but often
overlooked. Recently, Diffsuion-QL significantly boosts the performance of
offline RL by representing a policy with a diffusion model, whose success
relies on a parametrized Markov Chain with hundreds of steps for sampling.
However, Diffusion-QL suffers from two critical limitations. 1) It is
computationally inefficient to forward and backward through the whole Markov
chain during training. 2) It is incompatible with maximum likelihood-based RL
algorithms (e.g., policy gradient methods) as the likelihood of diffusion
models is intractable. Therefore, we propose efficient diffusion policy (EDP)
to overcome these two challenges. EDP approximately constructs actions from
corrupted ones at training to avoid running the sampling chain. We conduct
extensive experiments on the D4RL benchmark. The results show that EDP can
reduce the diffusion policy training time from 5 days to 5 hours on
gym-locomotion tasks. Moreover, we show that EDP is compatible with various
offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on
D4RL by large margins over previous methods. Our code is available at
https://github.com/sail-sg/edp.
- Abstract(参考訳): オフライン強化学習(rl)は、オフラインデータセットから最適なポリシーを学習することを目的としている。
最近、Diffsuion-QLは拡散モデルでポリシーを表現することでオフラインRLの性能を大幅に向上させ、その成功はサンプリングのための数百ステップのパラメータ化されたマルコフ連鎖に依存している。
しかし、Diffusion-QLには2つの限界がある。
1) 訓練中のマルコフ連鎖全体の前方および後方への移動は計算量的に非効率である。
2)拡散モデルの可能性は難解であるため,最大確率に基づくrlアルゴリズム(例えば,ポリシー勾配法)とは相容れない。
そこで本稿では,これらの2つの課題を克服する効率的な拡散政策を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の破損したアクションを概ね構成する。
D4RLベンチマークで広範な実験を行った。
その結果, EDPは, ジム移動作業において, 拡散政策訓練時間を5日から5時間に短縮できることがわかった。
さらに、EDPは様々なオフラインRLアルゴリズム(TD3、CRR、IQL)と互換性があり、従来の手法よりも大きなマージンでD4RLの新たな最先端を実現する。
私たちのコードはhttps://github.com/sail-sg/edpで利用可能です。
関連論文リスト
- Flow Q-Learning [61.60383927357656]
簡単なオフライン強化学習(RL)手法であるフローQ-ラーニング(FQL)を提案する。
FQLは、値を最大化するイテレーティブフローポリシを直接指導するのではなく、表現力のあるワンステップポリシをRLでトレーニングする。
FQLは73の州およびピクセルベースのOGBenchタスクとD4RLタスクに強いパフォーマンスをもたらすことを実験的に示す。
論文 参考訳(メタデータ) (2025-02-04T18:04:05Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文 参考訳(メタデータ) (2023-10-09T01:29:17Z) - Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文 参考訳(メタデータ) (2023-02-16T20:10:06Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。