論文の概要: Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance
- arxiv url: http://arxiv.org/abs/2605.30056v1
- Date: Thu, 28 May 2026 15:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.958741
- Title: Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance
- Title(参考訳): 批判的指導によるサンプル効率のよい拡散型強化学習
- Authors: Shutong Ding, Zejia Zhong, Zhongyi Wang, Ke Hu, Bikang Pan, Jingya Wang, Ye Shi,
- Abstract要約: CGPO, textbfCritic-textbfGuided diffusion textbfPolicy textbfOptimizationを提案する。
CGPOは、批評家ネットワークによって定義された高価値領域に対してアクション生成を制御し、回帰目的として誘導されたアクションを使用する。
5つのMuJoCo移動タスクにおけるCGPOの有効性を検証し,既存の拡散型RL法と比較してCGPOが最先端性能を達成することを示す。
- 参考スコア(独自算出の注目度): 38.06932977050757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have achieved great successes by leveraging the multimodality and exploration capability of diffusion policies. Among these approaches, one representative branch focuses on the sampling-based policy optimization. This design enables better exploration capability of the diffusion model, particularly at the beginning of training, but suffer from low exploitation in Q-value information, resulting in a slow policy convergence. Another branch pays attention to gradient-based policy optimization, which sufficiently exploits the gradient of the Q function yet tends to collapse into a unimodal policy with low diversity. To address this issue, we propose CGPO, \textbf{C}ritic-\textbf{G}uided diffusion \textbf{P}olicy \textbf{O}ptimization, which effectively balances exploration and exploitation with the training-free guidance technique integrated into the denoising process of diffusion policy. Concretely, CGPO steers action generation toward high-value regions defined by the critic network and uses the guided actions as regression objectives. In this manner, CGPO reduces the time required to obtain high-quality actions and improves final performance with better balance between the exploration-exploitation tradeoff. We validate the effectiveness of CGPO on 5 MuJoCo locomotion tasks, and CGPO achieves state-of-the-art performance compared with existing diffusion-based RL methods. Notably, CGPO is the first success to incorporate diffusion policy into real-world RL, with its superior performance on Franka robot arm grasping tasks. Our official page is released at https://dingsht.tech/cgpo-webpage.
- Abstract(参考訳): 近年の強化学習(RL)は,拡散政策の多モード性と探索能力を活用して大きな成功を収めている。
これらのアプローチの中で、ある代表的ブランチはサンプリングベースのポリシー最適化に焦点を当てている。
この設計は、特に訓練の開始時に拡散モデルのより良い探索能力を実現するが、Q値情報の少ない利用に悩まされ、政策収束が遅くなる。
別の分枝は勾配に基づく政策最適化に注意を払っており、これはQ関数の勾配を十分に活用するが、多様性の低い単調な政策に崩壊する傾向がある。
この問題に対処するために,CGPO, \textbf{C}ritic-\textbf{G}uidedfusion \textbf{P}olicy \textbf{O}ptimizationを提案する。
具体的には、CGPOは、批評家ネットワークが定義した高価値領域に対してアクション生成を制御し、ガイドされたアクションを回帰目的として利用する。
このようにして、CGPOは高品質な行動を得るのに必要な時間を短縮し、探索と探索のトレードオフのバランスを良くして最終性能を向上させる。
5つのMuJoCo移動タスクにおけるCGPOの有効性を検証し,既存の拡散型RL法と比較してCGPOが最先端性能を達成することを示す。
特にCGPOは、拡散ポリシーを現実世界のRLに組み込んだ最初の成功であり、フランカロボットアームの把握タスクにおいて優れた性能を発揮している。
公式ページはhttps://dingsht.tech/cgpo-webpage.comで公開されている。
関連論文リスト
- Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving [22.3805998088591]
DACER-Fは、自律運転システムにおける生成ポリシーのフローマッチングアルゴリズムである。
ヒューマノイド・スタンド・タスクで775.8のスコアを獲得し、以前の手法を上回ります。
論文 参考訳(メタデータ) (2026-03-03T05:35:53Z) - Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。