論文の概要: Enhanced DACER Algorithm with High Diffusion Efficiency
- arxiv url: http://arxiv.org/abs/2505.23426v1
- Date: Thu, 29 May 2025 13:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.867208
- Title: Enhanced DACER Algorithm with High Diffusion Efficiency
- Title(参考訳): 高拡散効率DACERアルゴリズム
- Authors: Yinuo Wang, Mining Tan, Wenjun Zou, Haotian Lin, Xujie Song, Wenxuan Wang, Tong Liu, Likun Wang, Guojian Zhan, Tianze Zhu, Shiqi Liu, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: 本研究では,初期における大規模ノイズを効果的に除去できる時間重み付け機構を提案する。
DACER2アルゴリズムは,ほとんどの MuJoCo 制御タスクにおいて,5つの拡散ステップしか持たない最先端性能を実現する。
- 参考スコア(独自算出の注目度): 26.268226121403515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to their expressive capacity, diffusion models have shown great promise in offline RL and imitation learning. Diffusion Actor-Critic with Entropy Regulator (DACER) extended this capability to online RL by using the reverse diffusion process as a policy approximator, trained end-to-end with policy gradient methods, achieving strong performance. However, this comes at the cost of requiring many diffusion steps, which significantly hampers training efficiency, while directly reducing the steps leads to noticeable performance degradation. Critically, the lack of inference efficiency becomes a significant bottleneck for applying diffusion policies in real-time online RL settings. To improve training and inference efficiency while maintaining or even enhancing performance, we propose a Q-gradient field objective as an auxiliary optimization target to guide the denoising process at each diffusion step. Nonetheless, we observe that the independence of the Q-gradient field from the diffusion time step negatively impacts the performance of the diffusion policy. To address this, we introduce a temporal weighting mechanism that enables the model to efficiently eliminate large-scale noise in the early stages and refine actions in the later stages. Experimental results on MuJoCo benchmarks and several multimodal tasks demonstrate that the DACER2 algorithm achieves state-of-the-art performance in most MuJoCo control tasks with only five diffusion steps, while also exhibiting stronger multimodality compared to DACER.
- Abstract(参考訳): その表現能力のため、拡散モデルはオフラインのRLと模倣学習において大きな可能性を示してきた。
Diffusion Actor-Critic with Entropy Regulator (DACER)は、逆拡散過程をポリシー近似として利用し、ポリシー勾配法でエンドツーエンドを訓練し、強力な性能を達成することで、この能力をオンラインRLに拡張した。
しかし、これは多くの拡散ステップを必要とするコストが伴うため、トレーニング効率を著しく損なうと同時に、直接的にステップを減らすことで、顕著なパフォーマンス低下につながる。
重要な点として、推論効率の欠如は、リアルタイムオンラインRL設定に拡散ポリシーを適用する上で重要なボトルネックとなる。
性能の維持や向上を図りながらトレーニングと推論効率を向上させるため,各拡散段階におけるデノナイジング過程を導くための補助最適化対象として,Q段階の場目標を提案する。
いずれにせよ,拡散時間段階からのQ段階の独立性は拡散政策の性能に悪影響を及ぼす。
そこで本研究では,初期段階の大規模ノイズを効率よく除去し,後期段階の動作を改善できる時間重み付け機構を提案する。
MuJoCo のベンチマークおよび複数のマルチモーダルタスクの実験結果から,DACER2 アルゴリズムは,ほとんどの MuJoCo 制御タスクにおいて,たった5つの拡散ステップで最先端の性能を達成する一方で,DACER と比較して強いマルチモーダル性を示すことを示した。
関連論文リスト
- Accelerating Diffusion Models in Offline RL via Reward-Aware Consistency Trajectory Distillation [88.4955839930215]
オフライン強化学習のための新しい一貫性蒸留手法を提案する。
本手法は,高い性能と簡易なトレーニングを維持しつつ,単一ステップ生成を可能にする。
論文 参考訳(メタデータ) (2025-06-09T14:48:19Z) - Improved Immiscible Diffusion: Accelerate Diffusion Training by Reducing Its Miscibility [62.272571285823595]
不和がいかに軽視し、効率を向上するかを示す。
そこで本稿では,K-nearest neighbor (KNN) ノイズ選択や画像スケーリングなどの実装のファミリを提案する。
この研究は、今後の高効率拡散訓練研究の新たな方向性を確立する。
論文 参考訳(メタデータ) (2025-05-24T05:38:35Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。
時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。
本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T06:57:04Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。