論文の概要: Enhanced DACER Algorithm with High Diffusion Efficiency
- arxiv url: http://arxiv.org/abs/2505.23426v2
- Date: Thu, 02 Oct 2025 12:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 21:54:12.753884
- Title: Enhanced DACER Algorithm with High Diffusion Efficiency
- Title(参考訳): 高拡散効率DACERアルゴリズム
- Authors: Yinuo Wang, Likun Wang, Mining Tan, Wenjun Zou, Xujie Song, Wenxuan Wang, Tong Liu, Guojian Zhan, Tianze Zhu, Shiqi Liu, Zeyu He, Feihong Zhang, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: DACERv2を提案する。これはQ-gradientフィールドの目的を利用して,各拡散ステップにおけるdenoisingプロセスの導出を行う。
DACERv2は,5つの拡散ステップしか持たない複雑な制御環境において高い性能を示し,マルチモーダル性を示す。
- 参考スコア(独自算出の注目度): 30.13489573844592
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to their expressive capacity, diffusion models have shown great promise in offline RL and imitation learning. Diffusion Actor-Critic with Entropy Regulator (DACER) extended this capability to online RL by using the reverse diffusion process as a policy approximator, achieving state-of-the-art performance. However, it still suffers from a core trade-off: more diffusion steps ensure high performance but reduce efficiency, while fewer steps degrade performance. This remains a major bottleneck for deploying diffusion policies in real-time online RL. To mitigate this, we propose DACERv2, which leverages a Q-gradient field objective with respect to action as an auxiliary optimization target to guide the denoising process at each diffusion step, thereby introducing intermediate supervisory signals that enhance the efficiency of single-step diffusion. Additionally, we observe that the independence of the Q-gradient field from the diffusion time step is inconsistent with the characteristics of the diffusion process. To address this issue, a temporal weighting mechanism is introduced, allowing the model to effectively eliminate large-scale noise during the early stages and refine its outputs in the later stages. Experimental results on OpenAI Gym benchmarks and multimodal tasks demonstrate that, compared with classical and diffusion-based online RL algorithms, DACERv2 achieves higher performance in most complex control environments with only five diffusion steps and shows greater multimodality.
- Abstract(参考訳): その表現能力のため、拡散モデルはオフラインのRLと模倣学習において大きな可能性を示してきた。
Diffusion Actor-Critic with Entropy Regulator (DACER) は、逆拡散過程をポリシー近似器として利用して、この能力をオンラインRLに拡張し、最先端の性能を実現した。
より多くの拡散ステップによって高いパフォーマンスが保証されるが、効率は低下する一方、パフォーマンスは低下する。
これは、リアルタイムオンラインRLに拡散ポリシーをデプロイする上で、依然として大きなボトルネックとなっている。
そこで本研究では, DACERv2を提案する。これは, 動作に対するQ勾配場目標を補助的最適化目標として活用し, 各拡散ステップにおけるデノナイジング過程を誘導し, 単段拡散の効率を高める中間補助信号を導入する。
さらに, 拡散時間ステップからのQ勾配場の独立性は拡散過程の特性と矛盾することを示した。
この問題に対処するために、時間重み付け機構を導入し、モデルが早期の大規模ノイズを効果的に排除し、後期の出力を改善できるようにする。
OpenAI Gymベンチマークとマルチモーダルタスクの実験結果は、古典的および拡散的オンラインRLアルゴリズムと比較して、DACERv2は5つの拡散ステップしか持たず、より高いマルチモーダル性を示す。
関連論文リスト
- Accelerating Diffusion Models in Offline RL via Reward-Aware Consistency Trajectory Distillation [88.4955839930215]
オフライン強化学習のための新しい一貫性蒸留手法を提案する。
本手法は,高い性能と簡易なトレーニングを維持しつつ,単一ステップ生成を可能にする。
論文 参考訳(メタデータ) (2025-06-09T14:48:19Z) - Improved Immiscible Diffusion: Accelerate Diffusion Training by Reducing Its Miscibility [62.272571285823595]
不和がいかに軽視し、効率を向上するかを示す。
そこで本稿では,K-nearest neighbor (KNN) ノイズ選択や画像スケーリングなどの実装のファミリを提案する。
この研究は、今後の高効率拡散訓練研究の新たな方向性を確立する。
論文 参考訳(メタデータ) (2025-05-24T05:38:35Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Variational Delayed Policy Optimization [25.668512485348952]
遅延観測環境においては、遅延ウィンドウ内での動作を含む状態拡張を採用してマルコフ特性を検索し、強化学習(RL)を可能にする。
時間差学習フレームワークを用いたSOTA(State-of-the-art)RL技術は、遅延を伴う拡張状態空間の大幅な拡張により、学習の非効率性に悩まされることが多い。
本稿では、遅延RLを変分推論問題として再構成する、変分遅延ポリシー最適化(VDPO)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T06:57:04Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。