Fugu-MT 論文翻訳(概要): DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning

論文の概要: DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.05333v2
Date: Wed, 28 Feb 2024 13:48:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 18:44:23.207643
Title: DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning
Title（参考訳）: DiffCPS:オフライン強化学習のための拡散モデルに基づく制約付きポリシー探索
Authors: Longxiang He, Li Shen, Linrui Zhang, Junbo Tan, Xueqian Wang
Abstract要約: 制約付きポリシー探索はオフライン強化学習の基本的な問題である。我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
参考スコア（独自算出の注目度）: 11.678012836760967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Constrained policy search (CPS) is a fundamental problem in offline reinforcement learning, which is generally solved by advantage weighted regression (AWR). However, previous methods may still encounter out-of-distribution actions due to the limited expressivity of Gaussian-based policies. On the other hand, directly applying the state-of-the-art models with distribution expression capabilities (i.e., diffusion models) in the AWR framework is intractable since AWR requires exact policy probability densities, which is intractable in diffusion models. In this paper, we propose a novel approach, $\textbf{Diffusion-based Constrained Policy Search}$ (dubbed DiffCPS), which tackles the diffusion-based constrained policy search with the primal-dual method. The theoretical analysis reveals that strong duality holds for diffusion-based CPS problems, and upon introducing parameter approximation, an approximated solution can be obtained after $\mathcal{O}(1/\epsilon)$ number of dual iterations, where $\epsilon$ denotes the representation ability of the parametrized policy. Extensive experimental results based on the D4RL benchmark demonstrate the efficacy of our approach. We empirically show that DiffCPS achieves better or at least competitive performance compared to traditional AWR-based baselines as well as recent diffusion-based offline RL methods. The code is now available at https://github.com/felix-thu/DiffCPS.
Abstract（参考訳）: 制約付きポリシー探索(CPS)はオフライン強化学習の基本的な問題であり、一般的には重み付け回帰(AWR)によって解決される。しかし、以前の方法は、ガウス政策の表現力に制限があるため、分配外行動に遭遇する可能性がある。一方、AWRフレームワークの分散表現能力(つまり拡散モデル)を持つ最先端モデルを直接適用することは、拡散モデルにおいて引き起こされる正確なポリシー確率密度を必要とするため、難解である。本稿では,拡散に基づく制約付きポリシー探索に主元的手法を用いて取り組む,$\textbf{diffusion-basedstricted policy search}$ (dubbed diffcps) という新しい手法を提案する。理論的解析により、拡散ベースのcps問題に対して強い双対性が成立することが明らかとなり、パラメータ近似を導入すると、近似解は2重反復の $\mathcal{o}(1/\epsilon)$ の後に得られ、ここでは$\epsilon$ はパラメータ化されたポリシーの表現能力を表す。 d4rlベンチマークに基づく広範な実験結果から,本手法の有効性が示された。 DiffCPS は従来の AWR ベースラインや最近の拡散型オフライン RL 法と比較して,優れた,少なくとも競争力のある性能を示す。コードはhttps://github.com/felix-thu/diffcpsで入手できる。

関連論文リスト

One-Step Flow Policy Mirror Descent [38.39095131927252]
Flow Policy Mirror Descent (FPMD)は、ポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文参考訳（メタデータ） (2025-07-31T15:51:10Z)
DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [37.420420953705396]
最大エントロピー強化学習(MaxEnt-RL)は,RLの探索特性から標準的アプローチとなっている。本稿では,拡散に基づく最大エントロピーRL(DIME)を提案し,その限界エントロピー計算の難しさを克服する。
論文参考訳（メタデータ） (2025-02-04T13:37:14Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。 DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。 DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文参考訳（メタデータ） (2024-05-30T05:04:33Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。 MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文参考訳（メタデータ） (2024-05-24T03:23:27Z)
Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-18T18:58:42Z)
Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。 EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文参考訳（メタデータ） (2023-05-31T17:55:21Z)
Policy Representation via Diffusion Probability Model for Reinforcement Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文参考訳（メタデータ） (2023-05-22T15:23:41Z)
Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文参考訳（メタデータ） (2023-05-22T11:45:23Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。