論文の概要: Enhanced DACER Algorithm with High Diffusion Efficiency
- arxiv url: http://arxiv.org/abs/2505.23426v1
- Date: Thu, 29 May 2025 13:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.867208
- Title: Enhanced DACER Algorithm with High Diffusion Efficiency
- Title(参考訳): 高拡散効率DACERアルゴリズム
- Authors: Yinuo Wang, Mining Tan, Wenjun Zou, Haotian Lin, Xujie Song, Wenxuan Wang, Tong Liu, Likun Wang, Guojian Zhan, Tianze Zhu, Shiqi Liu, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: 本研究では,初期における大規模ノイズを効果的に除去できる時間重み付け機構を提案する。
DACER2アルゴリズムは,ほとんどの MuJoCo 制御タスクにおいて,5つの拡散ステップしか持たない最先端性能を実現する。
- 参考スコア(独自算出の注目度): 26.268226121403515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to their expressive capacity, diffusion models have shown great promise in offline RL and imitation learning. Diffusion Actor-Critic with Entropy Regulator (DACER) extended this capability to online RL by using the reverse diffusion process as a policy approximator, trained end-to-end with policy gradient methods, achieving strong performance. However, this comes at the cost of requiring many diffusion steps, which significantly hampers training efficiency, while directly reducing the steps leads to noticeable performance degradation. Critically, the lack of inference efficiency becomes a significant bottleneck for applying diffusion policies in real-time online RL settings. To improve training and inference efficiency while maintaining or even enhancing performance, we propose a Q-gradient field objective as an auxiliary optimization target to guide the denoising process at each diffusion step. Nonetheless, we observe that the independence of the Q-gradient field from the diffusion time step negatively impacts the performance of the diffusion policy. To address this, we introduce a temporal weighting mechanism that enables the model to efficiently eliminate large-scale noise in the early stages and refine actions in the later stages. Experimental results on MuJoCo benchmarks and several multimodal tasks demonstrate that the DACER2 algorithm achieves state-of-the-art performance in most MuJoCo control tasks with only five diffusion steps, while also exhibiting stronger multimodality compared to DACER.
- Abstract(参考訳): その表現能力のため、拡散モデルはオフラインのRLと模倣学習において大きな可能性を示してきた。
Diffusion Actor-Critic with Entropy Regulator (DACER)は、逆拡散過程をポリシー近似として利用し、ポリシー勾配法でエンドツーエンドを訓練し、強力な性能を達成することで、この能力をオンラインRLに拡張した。
しかし、これは多くの拡散ステップを必要とするコストが伴うため、トレーニング効率を著しく損なうと同時に、直接的にステップを減らすことで、顕著なパフォーマンス低下につながる。
重要な点として、推論効率の欠如は、リアルタイムオンラインRL設定に拡散ポリシーを適用する上で重要なボトルネックとなる。
性能の維持や向上を図りながらトレーニングと推論効率を向上させるため,各拡散段階におけるデノナイジング過程を導くための補助最適化対象として,Q段階の場目標を提案する。
いずれにせよ,拡散時間段階からのQ段階の独立性は拡散政策の性能に悪影響を及ぼす。
そこで本研究では,初期段階の大規模ノイズを効率よく除去し,後期段階の動作を改善できる時間重み付け機構を提案する。
MuJoCo のベンチマークおよび複数のマルチモーダルタスクの実験結果から,DACER2 アルゴリズムは,ほとんどの MuJoCo 制御タスクにおいて,たった5つの拡散ステップで最先端の性能を達成する一方で,DACER と比較して強いマルチモーダル性を示すことを示した。
関連論文リスト
- Improved Immiscible Diffusion: Accelerate Diffusion Training by Reducing Its Miscibility [62.272571285823595]
不和がいかに軽視し、効率を向上するかを示す。
そこで本稿では,K-nearest neighbor (KNN) ノイズ選択や画像スケーリングなどの実装のファミリを提案する。
この研究は、今後の高効率拡散訓練研究の新たな方向性を確立する。
論文 参考訳(メタデータ) (2025-05-24T05:38:35Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。
時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。
本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T06:57:04Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。