論文の概要: Accelerating Diffusion Models in Offline RL via Reward-Aware Consistency Trajectory Distillation
- arxiv url: http://arxiv.org/abs/2506.07822v1
- Date: Mon, 09 Jun 2025 14:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.143299
- Title: Accelerating Diffusion Models in Offline RL via Reward-Aware Consistency Trajectory Distillation
- Title(参考訳): Reward-Aware Consistency Trajectory DistillationによるオフラインRLの拡散加速モデル
- Authors: Xintong Duan, Yutong He, Fahim Tajwar, Ruslan Salakhutdinov, J. Zico Kolter, Jeff Schneider,
- Abstract要約: オフライン強化学習のための新しい一貫性蒸留手法を提案する。
本手法は,高い性能と簡易なトレーニングを維持しつつ,単一ステップ生成を可能にする。
- 参考スコア(独自算出の注目度): 88.4955839930215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although diffusion models have achieved strong results in decision-making tasks, their slow inference speed remains a key limitation. While the consistency model offers a potential solution, its applications to decision-making often struggle with suboptimal demonstrations or rely on complex concurrent training of multiple networks. In this work, we propose a novel approach to consistency distillation for offline reinforcement learning that directly incorporates reward optimization into the distillation process. Our method enables single-step generation while maintaining higher performance and simpler training. Empirical evaluations on the Gym MuJoCo benchmarks and long horizon planning demonstrate that our approach can achieve an 8.7% improvement over previous state-of-the-art while offering up to 142x speedup over diffusion counterparts in inference time.
- Abstract(参考訳): 拡散モデルは意思決定タスクにおいて強い結果を得たが、その遅い推論速度は依然として重要な限界である。
一貫性モデルは潜在的な解決策を提供するが、その決定への応用は、しばしば準最適デモに苦しむか、複数のネットワークの複雑な同時トレーニングに依存している。
そこで本研究では, 直接的に報酬最適化を取り入れたオフライン強化学習のための一貫性蒸留手法を提案する。
本手法は,高い性能と簡易なトレーニングを維持しつつ,単一ステップ生成を可能にする。
Gym MuJoCoベンチマークと長期水平計画に関する実証的な評価は、我々のアプローチが従来の最先端技術よりも8.7%向上し、推論時間において拡散時間よりも最大142倍のスピードアップを提供できることを示している。
関連論文リスト
- Enhanced DACER Algorithm with High Diffusion Efficiency [26.268226121403515]
本研究では,初期における大規模ノイズを効果的に除去できる時間重み付け機構を提案する。
DACER2アルゴリズムは,ほとんどの MuJoCo 制御タスクにおいて,5つの拡散ステップしか持たない最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T13:21:58Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance [12.973835034100428]
本稿では, SNOOPIについて述べる。SNOOPIは, トレーニングと推論の双方において, ワンステップ拡散モデルのガイダンスを高めるために設計された新しいフレームワークである。
両教師モデルの指導尺度を変化させることで、出力分布を拡大し、より堅牢なVSD損失が発生し、SBは競争性能を維持しつつ、多様なバックボーンを効果的に実行できる。
第2に、負のプロンプトを1段階拡散モデルに統合して、生成した画像中の望ましくない要素を抑圧する、負のアウェイステア注意(Negative-Away Steer Attention, NASA)と呼ばれるトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。