論文の概要: How Does the Lagrangian Guide Safe Reinforcement Learning through Diffusion Models?
- arxiv url: http://arxiv.org/abs/2602.02924v1
- Date: Mon, 02 Feb 2026 23:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.143691
- Title: How Does the Lagrangian Guide Safe Reinforcement Learning through Diffusion Models?
- Title(参考訳): ラグランジアンガイドの拡散モデルによる安全強化学習
- Authors: Xiaoyuan Cheng, Wenxuan Yuan, Boyang Li, Yuanchao Xu, Yiming Yang, Hao Liang, Bei Peng, Robert Loftin, Zhuo Sun, Yukun Hu,
- Abstract要約: The Theoryal DiffusionALGD is a novel algorithm for off-policy safe RL learning。
我々は、RLラグランジアンを導くエネルギー関数を、退化力学を導く安定化エネルギー関数と解釈できることを示した。
- 参考スコア(独自算出の注目度): 35.41848524109697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policy sampling enables reinforcement learning (RL) to represent multimodal action distributions beyond suboptimal unimodal Gaussian policies. However, existing diffusion-based RL methods primarily focus on offline settings for reward maximization, with limited consideration of safety in online settings. To address this gap, we propose Augmented Lagrangian-Guided Diffusion (ALGD), a novel algorithm for off-policy safe RL. By revisiting optimization theory and energy-based model, we show that the instability of primal-dual methods arises from the non-convex Lagrangian landscape. In diffusion-based safe RL, the Lagrangian can be interpreted as an energy function guiding the denoising dynamics. Counterintuitively, direct usage destabilizes both policy generation and training. ALGD resolves this issue by introducing an augmented Lagrangian that locally convexifies the energy landscape, yielding a stabilized policy generation and training process without altering the distribution of the optimal policy. Theoretical analysis and extensive experiments demonstrate that ALGD is both theoretically grounded and empirically effective, achieving strong and stable performance across diverse environments.
- Abstract(参考訳): 拡散ポリシサンプリングにより、強化学習(RL)は、最適非モダルガウスポリシーを超えたマルチモーダルな行動分布を表現できる。
しかし、既存の拡散型RL法は主に報酬最大化のためのオフライン設定に焦点を当てており、オンライン設定の安全性は限られている。
このギャップに対処するために、我々は、政治的でない安全なRLのための新しいアルゴリズムであるAugmented Lagrangian-Guided Diffusion (ALGD)を提案する。
最適化理論とエネルギーベースモデルを再考することにより、原始双対法の不安定性は非凸ラグランジアン景観から生じることを示す。
拡散に基づく安全なRLでは、ラグランジアンは退化力学を導くエネルギー関数として解釈できる。
直接的な利用は、ポリシー生成とトレーニングの両方を不安定にする。
ALGDは、エネルギー景観を局所的に凸させる拡張ラグランジアンを導入し、最適な政策の分布を変えることなく安定な政策生成と訓練プロセスを生成することでこの問題を解決する。
理論解析と広範な実験により、ALGDは理論的に基礎があり、実験的に有効であり、多様な環境において強い、安定した性能を達成することが示されている。
関連論文リスト
- Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner [23.232437167002406]
LaDi-RL(Ladi-RL)は、連続的な潜伏空間で直接探索を行うフレームワークである。
誘導拡散による探索をモデル化することにより、多段階の分散性をデノベートし、複数の共存解モードを保存する。
コード生成と数学的推論ベンチマークの実験では、個別のRLよりもpass@1とpass@kで一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-02-02T06:26:31Z) - Dichotomous Diffusion Policy Optimization [46.51375996317989]
DIPOLEは、安定かつ制御可能な拡散ポリシー最適化のために設計された新しいRLアルゴリズムである。
また、DIPOLEを使用して、エンドツーエンドの自動運転のための大規模なビジョン言語アクションモデルをトレーニングしています。
論文 参考訳(メタデータ) (2025-12-31T16:56:56Z) - Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.333460316347264]
本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-07T09:30:35Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。