論文の概要: DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching
- arxiv url: http://arxiv.org/abs/2602.05449v1
- Date: Thu, 05 Feb 2026 08:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.850347
- Title: DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching
- Title(参考訳): DisCa: 拡張可能な学習可能な特徴キャッシングによるビデオ拡散変換器の高速化
- Authors: Chang Zou, Changlin Li, Yang Li, Patrol Li, Jianbing Wu, Xiao He, Songtao Liu, Zhao Zhong, Kailin Huang, Linfeng Zhang,
- Abstract要約: 本稿では,蒸留対応の学習可能な特徴キャッシング機構を初めて紹介する。
拡散モデルには、従来のトレーニングフリーではなく、軽量で学習可能なニューラル予測器を使用します。
生成品質を維持しながら、加速度境界をさらに11.8times$に押し上げます。
- 参考スコア(独自算出の注目度): 26.603292632638283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models have achieved great success in the field of video generation, this progress is accompanied by a rapidly escalating computational burden. Among the existing acceleration methods, Feature Caching is popular due to its training-free property and considerable speedup performance, but it inevitably faces semantic and detail drop with further compression. Another widely adopted method, training-aware step-distillation, though successful in image generation, also faces drastic degradation in video generation with a few steps. Furthermore, the quality loss becomes more severe when simply applying training-free feature caching to the step-distilled models, due to the sparser sampling steps. This paper novelly introduces a distillation-compatible learnable feature caching mechanism for the first time. We employ a lightweight learnable neural predictor instead of traditional training-free heuristics for diffusion models, enabling a more accurate capture of the high-dimensional feature evolution process. Furthermore, we explore the challenges of highly compressed distillation on large-scale video models and propose a conservative Restricted MeanFlow approach to achieve more stable and lossless distillation. By undertaking these initiatives, we further push the acceleration boundaries to $11.8\times$ while preserving generation quality. Extensive experiments demonstrate the effectiveness of our method. The code is in the supplementary materials and will be publicly available.
- Abstract(参考訳): 拡散モデルはビデオ生成の分野で大きな成功を収めてきたが、この進歩には急速に計算負荷が増大している。
既存のアクセラレーション手法の中で、Feature Cachingはトレーニング不要な性質と相当なスピードアップ性能のために人気があるが、必然的にセマンティックとディテールの低下に直面し、さらなる圧縮を行う。
他にも広く採用されているトレーニング対応のステップ蒸留は、画像生成に成功しているが、いくつかのステップでビデオ生成の大幅な劣化に直面している。
さらに、スペーサーサンプリングステップにより、ステップ蒸留モデルにトレーニング不要の特徴キャッシングを単に適用すれば、品質損失がより深刻になる。
本稿では,蒸留対応の学習可能な特徴キャッシング機構を初めて紹介する。
我々は、拡散モデルに従来のトレーニング不要なヒューリスティックの代わりに、軽量な学習可能なニューラル予測器を使用し、高次元の特徴進化過程をより正確に捉えることができる。
さらに, 大規模ビデオモデルにおける高圧縮蒸留の課題について検討し, より安定かつ損失のない蒸留を実現するために, 保守的なRestricted MeanFlowアプローチを提案する。
これらのイニシアチブを実践することで、生成品質を維持しながら、加速境界を11.8\times$に押し上げます。
大規模な実験により,本手法の有効性が示された。
コードは補充資料に含まれており、一般公開される予定である。
関連論文リスト
- Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation [39.27933931527444]
拡散モデルは、ビデオ作成や仮想エージェントといった様々なアプリケーションのために、オーディオからリアルな音声合成ビデオを合成することができる。
本研究では,多段階拡散ビデオモデルを数段階の学生モデルに蒸留する。
入力された人間のポーズキーポイント間の正確な対応を利用して、話者の顔、手、上半身などの関連領域に注意を向ける。
この入力対応スパースアテンションは、冗長な計算を低減し、身体部分の時間対応を強化し、推論効率と動きコヒーレンスを向上させる。
論文 参考訳(メタデータ) (2025-10-02T23:35:52Z) - Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。
我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。
提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文 参考訳(メタデータ) (2025-07-03T17:59:54Z) - Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation [53.877572078307935]
蒸留ビデオ生成モデルは、高速で効率的なが、参照ビデオによってガイドされるときの動きのカスタマイズに苦労する。
拡散教師の強制力を活用して運動のカスタマイズを可能にする訓練不要な試験時間蒸留フレームワークであるMotionEchoを提案する。
論文 参考訳(メタデータ) (2025-06-24T06:20:15Z) - Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition [4.0594792247165]
拡散変換器(DiT)モデルは画像生成において顕著な成功を収めた。
Increment-calibrated cache, a training-free method for DiT accelerate。
本手法は45%以上を除去し,0.06 FID増加のコストでISを12倍に改善する。
論文 参考訳(メタデータ) (2025-05-09T06:56:17Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。