論文の概要: Soft Diffusion Actor-Critic: Efficient Online Reinforcement Learning for Diffusion Policy
- arxiv url: http://arxiv.org/abs/2502.00361v2
- Date: Wed, 12 Feb 2025 06:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:43.044461
- Title: Soft Diffusion Actor-Critic: Efficient Online Reinforcement Learning for Diffusion Policy
- Title(参考訳): Soft Diffusion Actor-Critic: 拡散政策のための効率的なオンライン強化学習
- Authors: Haitong Ma, Tianyi Chen, Kai Wang, Na Li, Bo Dai,
- Abstract要約: 拡散政策は模倣学習とオフライン強化学習において優れた性能を有する。
オンラインRLのための効率的な拡散ポリシートレーニングを実現するために,ソフト拡散アクタ・クライブ(SDAC)を提案する。
SDACは拡散政策を訓練するエネルギー関数として状態-作用値関数にのみ依存する。
- 参考スコア(独自算出の注目度): 38.39095131927252
- License:
- Abstract: Diffusion policies have achieved superior performance in imitation learning and offline reinforcement learning (RL) due to their rich expressiveness. However, the vanilla diffusion training procedure requires samples from target distribution, which is impossible in online RL since we cannot sample from the optimal policy, making training diffusion policies highly non-trivial in online RL. Backpropagating policy gradient through the diffusion process incurs huge computational costs and instability, thus being expensive and impractical. To enable efficient diffusion policy training for online RL, we propose Soft Diffusion Actor-Critic (SDAC), exploiting the viewpoint of diffusion models as noise-perturbed energy-based models. The proposed SDAC relies solely on the state-action value function as the energy functions to train diffusion policies, bypassing sampling from the optimal policy while maintaining lightweight computations. We conducted comprehensive comparisons on MuJoCo benchmarks. The empirical results show that SDAC outperforms all recent diffusion-policy online RLs on most tasks, and improves more than 120% over soft actor-critic on complex locomotion tasks such as Humanoid and Ant.
- Abstract(参考訳): 拡散ポリシは、その豊かな表現力により、模倣学習やオフライン強化学習(RL)において優れたパフォーマンスを実現している。
しかし,バニラ拡散訓練では最適方針からサンプルを採取できないため,オンラインRLでは不可能なターゲット分布からのサンプルを必要とするため,オンラインRLでは非自明なトレーニング拡散政策が成立する。
拡散過程による政策勾配の逆伝播は、膨大な計算コストと不安定をもたらすため、高価で実用的ではない。
オンラインRLの効率的な拡散政策トレーニングを実現するために,拡散モデルのノイズ摂動エネルギーベースモデルとしての視点を活かしたSDAC(Soft Diffusion Actor-Critic)を提案する。
提案したSDACは、拡散政策を訓練するエネルギー関数として状態-作用値関数にのみ依存し、軽量な計算を維持しながら最適な政策からのサンプリングを回避している。
MuJoCoベンチマークの総合的な比較を行った。
実験の結果、SDACは最近のオンラインRLよりも多くのタスクで優れており、HumanoidやAntのような複雑な移動タスクではソフトアクター批判よりも120%以上改善されている。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。