論文の概要: Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.04080v2
- Date: Thu, 07 Nov 2024 19:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:51:58.398264
- Title: Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのQアンサンブルを用いたエントロピー規則化拡散政策
- Authors: Ruoqi Zhang, Ziwei Luo, Jens Sjölund, Thomas B. Schön, Per Mattsson,
- Abstract要約: 本稿では,オフライン強化学習(RL)のための訓練拡散政策の高度技術について述べる。
我々は、SDEが、オフラインデータセットの探索を改善するエントロピー正則化器(Entropy regularizer)を生成することで、ポリシーのログ確率を計算するのに使用できるソリューションを持っていることを示す。
オフラインRLにおけるエントロピー正規化拡散ポリシーとQアンサンブルを組み合わせることで,D4RLベンチマークのほとんどのタスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.0460569590737
- License:
- Abstract: This paper presents advanced techniques of training diffusion policies for offline reinforcement learning (RL). At the core is a mean-reverting stochastic differential equation (SDE) that transfers a complex action distribution into a standard Gaussian and then samples actions conditioned on the environment state with a corresponding reverse-time SDE, like a typical diffusion policy. We show that such an SDE has a solution that we can use to calculate the log probability of the policy, yielding an entropy regularizer that improves the exploration of offline datasets. To mitigate the impact of inaccurate value functions from out-of-distribution data points, we further propose to learn the lower confidence bound of Q-ensembles for more robust policy improvement. By combining the entropy-regularized diffusion policy with Q-ensembles in offline RL, our method achieves state-of-the-art performance on most tasks in D4RL benchmarks. Code is available at https://github.com/ruoqizzz/Entropy-Regularized-Diffusion-Policy-with-QEnsemble.
- Abstract(参考訳): 本稿では,オフライン強化学習(RL)のための訓練拡散政策の高度技術について述べる。
中心にある平均回帰確率微分方程式(SDE)は、複素作用分布を標準ガウスに変換し、典型的な拡散ポリシーのように、対応する逆時間SDEで環境状態に条件付けられた作用をサンプリングする。
このようなSDEは、オフラインデータセットの探索を改善するエントロピー正規化器(Entropy regularizer)を生成することで、ポリシーのログ確率を計算するのに使用できるソリューションを持っていることを示す。
また,不正確な値関数の影響を軽減するために,より堅牢な政策改善のために,Qアンサンブルの低信頼境界を学習することを提案する。
オフラインRLにおけるエントロピー規則化拡散ポリシーとQアンサンブルを組み合わせることで,D4RLベンチマークのほとんどのタスクにおける最先端性能を実現する。
コードはhttps://github.com/ruoqizzz/Entropy-Regularized-Diffusion-Policy-with-QEnsembleで公開されている。
関連論文リスト
- Sampling from Energy-based Policies using Diffusion [14.542411354617983]
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフライン強化学習(RL)では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。
拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。
提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-31T00:41:04Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process [11.01014302314467]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。
我々は、SDEが関連する摂動過程と整合するように制約することを提案する。
我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文 参考訳(メタデータ) (2024-03-07T02:24:45Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。