論文の概要: RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2509.22323v1
- Date: Fri, 26 Sep 2025 13:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.450839
- Title: RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer
- Title(参考訳): RAPID^3:拡散変圧器の3レベル強化加速法
- Authors: Wangbo Zhao, Yizeng Han, Zhiwei Tang, Jiasheng Tang, Pengfei Zhou, Kai Wang, Bohan Zhuang, Zhangyang Wang, Fan Wang, Yang You,
- Abstract要約: ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
本稿では,RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介する。
ベースジェネレータの更新をゼロにするイメージワイドアクセラレーションを提供する。
競合する生成品質でサンプリングを3倍近く高速化する。
- 参考スコア(独自算出の注目度): 86.57077884971478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) excel at visual generation yet remain hampered by slow sampling. Existing training-free accelerators - step reduction, feature caching, and sparse attention - enhance inference speed but typically rely on a uniform heuristic or a manually designed adaptive strategy for all images, leaving quality on the table. Alternatively, dynamic neural networks offer per-image adaptive acceleration, but their high fine-tuning costs limit broader applicability. To address these limitations, we introduce RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformers, a framework that delivers image-wise acceleration with zero updates to the base generator. Specifically, three lightweight policy heads - Step-Skip, Cache-Reuse, and Sparse-Attention - observe the current denoising state and independently decide their corresponding speed-up at each timestep. All policy parameters are trained online via Group Relative Policy Optimization (GRPO) while the generator remains frozen. Meanwhile, an adversarially learned discriminator augments the reward signal, discouraging reward hacking by boosting returns only when generated samples stay close to the original model's distribution. Across state-of-the-art DiT backbones, including Stable Diffusion 3 and FLUX, RAPID3 achieves nearly 3x faster sampling with competitive generation quality.
- Abstract(参考訳): ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
既存のトレーニングフリーアクセラレーター - ステップリダクション、フィーチャーキャッシング、スパースアテンション - は推論速度を向上するが、通常、すべてのイメージに対して均一なヒューリスティックまたは手動で設計された適応戦略に依存し、テーブルに品質を残している。
あるいは、動的ニューラルネットワークは画像ごとの適応的アクセラレーションを提供するが、その高い微調整コストはより広範な適用性を制限する。
これらの制限に対処するために、RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介します。
具体的には、3つの軽量ポリシーヘッド – Step-Skip、Cache-Reuse、Sparse-Attention – が現在のデノナイズ状態を観察し、各ステップで対応するスピードアップを独立して決定する。
すべてのポリシーパラメータは、グループ相対ポリシー最適化(GRPO)を通じてオンラインでトレーニングされるが、ジェネレータは凍結されている。
一方、逆学習した識別器は報奨信号を強化し、生成したサンプルが元のモデルの分布に近づいた場合にのみ、リターンを押し上げることで報奨ハッキングを阻止する。
安定拡散3とFLUXを含む最先端のDiTバックボーン全体において、RAPID3は、競合する生成品質で、ほぼ3倍高速なサンプリングを実現している。
関連論文リスト
- TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching [17.724549528455317]
拡散モデルは高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
本稿では,両制約を効果的に対処する新しい「予測検証」アクセラレーションフレームワークであるSpeCaを提案する。
提案手法では,予測信頼性を効率よく評価するパラメータフリー検証機構を実装し,各予測に対するリアルタイム決定の受け入れや拒否を可能にする。
論文 参考訳(メタデータ) (2025-09-15T06:46:22Z) - Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers [9.875073051988057]
Region-Adaptive Latent Upsampling(ALU)は、空間次元に沿って推論を加速するトレーニング不要のフレームワークである。
1) グローバルセマンティック構造を効率的に捉えるための低分解能遅延拡散の低分解能化、2) 特定の領域に対する領域適応的なアップサンプリング、3) 詳細精細化のために全分解能で遅延アップサンプリングを行う。
FLUXで最大7.0$times$, 安定拡散3で3.0$times$を最小限の劣化で達成することで, 画像品質を保ちながら計算を著しく削減する。
論文 参考訳(メタデータ) (2025-07-11T09:07:43Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation [40.68265817413368]
ALTER: All-in-One Layer Pruning and Temporal Expert Routingを紹介する。
拡散モデルを効率的な時間的専門家の混合物に変換する統一されたフレームワーク。
トレーニング可能なハイパーネットワークを利用することで、レイヤープルーニング、エキスパートルーティング、モデル微調整を統一するシングルステージ最適化。
論文 参考訳(メタデータ) (2025-05-27T22:59:44Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Prompt2NeRF-PIL: Fast NeRF Generation via Pretrained Implicit Latent [61.56387277538849]
本稿では,3次元シーンの直接条件付けと高速なNeRFパラメータ生成のための高速なNeRF生成について検討する。
Prompt2NeRF-PILは、単一の前方通過で様々な3Dオブジェクトを生成することができる。
我々は,テキストからNeRFモデルDreamFusionと画像からNeRF手法Zero-1-to-3の3次元再構成速度を3倍から5倍に高速化することを示す。
論文 参考訳(メタデータ) (2023-12-05T08:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。