論文の概要: Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.04778v1
- Date: Fri, 07 Feb 2025 09:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:53.005206
- Title: Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための行動規則化拡散政策最適化
- Authors: Chen-Xiao Gao, Chenyang Wu, Mingjun Cao, Chenjun Xiao, Yang Yu, Zongzhang Zhang,
- Abstract要約: 本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 22.333460316347264
- License:
- Abstract: The primary focus of offline reinforcement learning (RL) is to manage the risk of hazardous exploitation of out-of-distribution actions. An effective approach to achieve this goal is through behavior regularization, which augments conventional RL objectives by incorporating constraints that enforce the policy to remain close to the behavior policy. Nevertheless, existing literature on behavior-regularized RL primarily focuses on explicit policy parameterizations, such as Gaussian policies. Consequently, it remains unclear how to extend this framework to more advanced policy parameterizations, such as diffusion models. In this paper, we introduce BDPO, a principled behavior-regularized RL framework tailored for diffusion-based policies, thereby combining the expressive power of diffusion policies and the robustness provided by regularization. The key ingredient of our method is to calculate the Kullback-Leibler (KL) regularization analytically as the accumulated discrepancies in reverse-time transition kernels along the diffusion trajectory. By integrating the regularization, we develop an efficient two-time-scale actor-critic RL algorithm that produces the optimal policy while respecting the behavior constraint. Comprehensive evaluations conducted on synthetic 2D tasks and continuous control tasks from the D4RL benchmark validate its effectiveness and superior performance.
- Abstract(参考訳): オフライン強化学習(RL)の主な焦点は、アウト・オブ・ディストリビューション・アクションの有害な利用のリスクを管理することである。
この目標を達成するための効果的なアプローチは、行動規則化を通じてであり、行動方針に近づき続けるようにポリシーを強制する制約を組み込むことにより、従来のRL目標を強化するものである。
それでも、行動規則化RLに関する既存の文献は、主にガウスポリシーのような明示的なポリシーパラメータ化に焦点を当てている。
したがって、このフレームワークを拡散モデルのようなより高度な政策パラメータ化にどのように拡張するかは定かではない。
本稿では,拡散政策に適した行動規則化RLフレームワークであるBDPOを紹介し,拡散政策の表現力と正規化による堅牢性を組み合わせた。
本手法の鍵となる要素は,拡散軌道に沿った逆時間遷移核の累積不一致としてクルバック・リーブラ(KL)正則化を解析的に計算することである。
正規化を統合することで、動作制約を尊重しながら最適なポリシーを生成する、2時間スケールのアクタークリティカルなRLアルゴリズムを効率的に開発する。
D4RLベンチマークから合成2次元タスクと連続制御タスクを総合的に評価し,その有効性と性能を検証した。
関連論文リスト
- Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。