論文の概要: Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps
- arxiv url: http://arxiv.org/abs/2505.10482v2
- Date: Wed, 11 Jun 2025 05:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.679122
- Title: Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps
- Title(参考訳): 拡散時間経過によるバックプロパゲーションを伴う微調整拡散反応
- Authors: Ningyuan Yang, Jiaxuan Gao, Feng Gao, Yi Wu, Chao Yu,
- Abstract要約: NCDPOは拡散政策を雑音条件決定政策として再構成する新しい枠組みである。
実験の結果,NCDPOはスクラッチからトレーニングを行う際に,PPOに匹敵するサンプル効率が得られることがわかった。
- 参考スコア(独自算出の注目度): 15.333088768668347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies, widely adopted in decision-making scenarios such as robotics, gaming and autonomous driving, are capable of learning diverse skills from demonstration data due to their high representation power. However, the sub-optimal and limited coverage of demonstration data could lead to diffusion policies that generate sub-optimal trajectories and even catastrophic failures. While reinforcement learning (RL)-based fine-tuning has emerged as a promising solution to address these limitations, existing approaches struggle to effectively adapt Proximal Policy Optimization (PPO) to diffusion models. This challenge stems from the computational intractability of action likelihood estimation during the denoising process, which leads to complicated optimization objectives. In our experiments starting from randomly initialized policies, we find that online tuning of Diffusion Policies demonstrates much lower sample efficiency compared to directly applying PPO on MLP policies (MLP+PPO). To address these challenges, we introduce NCDPO, a novel framework that reformulates Diffusion Policy as a noise-conditioned deterministic policy. By treating each denoising step as a differentiable transformation conditioned on pre-sampled noise, NCDPO enables tractable likelihood evaluation and gradient backpropagation through all diffusion timesteps. Our experiments demonstrate that NCDPO achieves sample efficiency comparable to MLP+PPO when training from scratch, outperforming existing methods in both sample efficiency and final performance across diverse benchmarks, including continuous robot control and multi-agent game scenarios. Furthermore, our experimental results show that our method is robust to the number denoising timesteps in the Diffusion Policy.
- Abstract(参考訳): ロボット工学、ゲーム、自律運転などの意思決定シナリオで広く採用されている拡散ポリシーは、その表現力の高さから、デモデータから多様なスキルを学ぶことができる。
しかし、実験データの準最適かつ限定的なカバレッジは、準最適軌道を生成する拡散ポリシーや、破滅的な失敗につながる可能性がある。
強化学習(RL)に基づく微調整はこれらの制限に対処するための有望な解決策として現れてきたが、既存のアプローチは拡散モデルにPPO(Proximal Policy Optimization)を効果的に適応させるのに苦労している。
この課題は、デノナイジング過程における行動可能性推定の計算的抽出可能性に起因し、複雑な最適化目標が導かれる。
ランダムな初期化ポリシから始める実験では,MLPポリシー(MLP+PPO)にPPOを直接適用した場合よりも,拡散ポリシのオンラインチューニングの方がサンプル効率がはるかに低いことが判明した。
これらの課題に対処するため,我々は拡散政策を雑音条件決定政策として再構成する新しい枠組みであるNCDPOを紹介した。
NCDPOは, 各ノイズの分解ステップを, 予めサンプリングした雑音に条件付けられた微分可能な変換として扱うことにより, 全ての拡散時間ステップを通して, 抽出可能な確率評価と勾配のバックプロパゲーションを可能にする。
実験により,NCDPO はスクラッチからトレーニングを行う際に MLP+PPO に匹敵するサンプル効率を実現し,連続ロボット制御やマルチエージェントゲームシナリオを含む様々なベンチマークにおいて,サンプル効率と最終性能の両方において既存の手法よりも優れていた。
さらに,本手法は拡散政策の時間ステップに頑健であることを示す実験結果を得た。
関連論文リスト
- A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。