論文の概要: DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.05333v1
- Date: Mon, 9 Oct 2023 01:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:19:50.865761
- Title: DiffCPS: Diffusion Model based Constrained Policy Search for Offline
Reinforcement Learning
- Title(参考訳): DiffCPS:オフライン強化学習のための拡散モデルに基づく制約付きポリシー探索
- Authors: Longxiang He, Linrui Zhang, Junbo Tan, Xueqian Wang
- Abstract要約: 制約付きポリシー探索はオフライン強化学習の基本的な問題である。
我々は、$textbfDiffusion Model based Constrained Policy Search (DiffCPS)$という新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 6.794239727134279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained policy search (CPS) is a fundamental problem in offline
reinforcement learning, which is generally solved by advantage weighted
regression (AWR). However, previous methods may still encounter
out-of-distribution actions due to the limited expressivity of Gaussian-based
policies. On the other hand, directly applying the state-of-the-art models with
distribution expression capabilities (i.e., diffusion models) in the AWR
framework is insufficient since AWR requires exact policy probability
densities, which is intractable in diffusion models. In this paper, we propose
a novel approach called $\textbf{Diffusion Model based Constrained Policy
Search (DiffCPS)}$, which tackles the diffusion-based constrained policy search
without resorting to AWR. The theoretical analysis reveals our key insights by
leveraging the action distribution of the diffusion model to eliminate the
policy distribution constraint in the CPS and then utilizing the Evidence Lower
Bound (ELBO) of diffusion-based policy to approximate the KL constraint.
Consequently, DiffCPS admits the high expressivity of diffusion models while
circumventing the cumbersome density calculation brought by AWR. Extensive
experimental results based on the D4RL benchmark demonstrate the efficacy of
our approach. We empirically show that DiffCPS achieves better or at least
competitive performance compared to traditional AWR-based baselines as well as
recent diffusion-based offline RL methods. The code is now available at
$\href{https://github.com/felix-thu/DiffCPS}{https://github.com/felix-thu/DiffCPS}$.
- Abstract(参考訳): 制約付きポリシー探索(CPS)はオフライン強化学習の基本的な問題であり、一般的には重み付け回帰(AWR)によって解決される。
しかし、以前の方法は、ガウス政策の表現力に制限があるため、分配外行動に遭遇する可能性がある。
一方, AWR フレームワークでは, 拡散モデルでは難易度である厳密な政策確率密度を必要とするため, 分散表現能力を持つ最先端モデル(拡散モデル)を直接適用するには不十分である。
本稿では,拡散に基づく制約付きポリシー探索をawrに頼らずに解決する,$\textbf{diffusion model based restricteded policy search (diffcps)$と呼ばれる新しい手法を提案する。
理論解析により,拡散モデルの作用分布を利用してcpsの政策分布制約を解消し,kl制約を近似するために拡散に基づく政策のエビデンス下限(elbo)を活用することにより,我々の重要な知見が明らかになった。
その結果、DiffCPS は拡散モデルの高表現性を認め、AWR によってもたらされる煩雑な密度計算を回避した。
d4rlベンチマークに基づく広範な実験結果から,本手法の有効性が示された。
DiffCPS は従来の AWR ベースラインや最近の拡散型オフライン RL 法と比較して,優れた,少なくとも競争力のある性能を示す。
コードは、$\href{https://github.com/felix-thu/DiffCPS}{https://github.com/felix-thu/DiffCPS}$で入手できる。
関連論文リスト
- Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。