Fugu-MT 論文翻訳(概要): Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

論文の概要: Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

arxiv url: http://arxiv.org/abs/2602.19161v1
Date: Sun, 22 Feb 2026 12:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.51188
Title: Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation
Title（参考訳）: Flash-VAED: 効率的なビデオ生成のためのプラグイン・アンド・プレイ型VAEデコーダ
Authors: Lunjie Zhu, Yushi Huang, Xingtong Ge, Yufei Xue, Zhening Liu, Yumeng Zhang, Zehong Lin, Jun Zhang,
Abstract要約: 遅延拡散モデルにより高品質なビデオ合成が可能になったが、推論は高価で時間を要するままである。本稿では,VAEデコーダの高速化フレームワークを提案する。我々はFlash-VAEDがエンドツーエンド生成パイプラインを最大36%高速化し、VBench-2.0では品質低下が無視できることを示した。
参考スコア（独自算出の注目度）: 16.210613736589597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Latent diffusion models have enabled high-quality video synthesis, yet their inference remains costly and time-consuming. As diffusion transformers become increasingly efficient, the latency bottleneck inevitably shifts to VAE decoders. To reduce their latency while maintaining quality, we propose a universal acceleration framework for VAE decoders that preserves full alignment with the original latent distribution. Specifically, we propose (1) an independence-aware channel pruning method to effectively mitigate severe channel redundancy, and (2) a stage-wise dominant operator optimization strategy to address the high inference cost of the widely used causal 3D convolutions in VAE decoders. Based on these innovations, we construct a Flash-VAED family. Moreover, we design a three-phase dynamic distillation framework that efficiently transfers the capabilities of the original VAE decoder to Flash-VAED. Extensive experiments on Wan and LTX-Video VAE decoders demonstrate that our method outperforms baselines in both quality and speed, achieving approximately a 6$\times$ speedup while maintaining the reconstruction performance up to 96.9%. Notably, Flash-VAED accelerates the end-to-end generation pipeline by up to 36% with negligible quality drops on VBench-2.0.
Abstract（参考訳）: 遅延拡散モデルにより高品質なビデオ合成が可能になったが、推論は高価で時間を要するままである。拡散変換器の効率が向上するにつれて、レイテンシのボトルネックは必然的にVAEデコーダにシフトする。品質を保ちながらレイテンシを低減するために,元の潜伏分布との完全整合性を保持するVAEデコーダの普遍的高速化フレームワークを提案する。具体的には,(1)重大チャネル冗長性を効果的に緩和する独立系チャネルプルーニング法,(2)広く使用されているVAEデコーダにおける因果3D畳み込みの高推論コストに対処する段階的に支配的な演算子最適化法を提案する。これらのイノベーションに基づいて、Flash-VAEDファミリを構築します。さらに,元のVAEデコーダの機能をFlash-VAEDに効率よく転送する3相動的蒸留フレームワークを設計する。 WanとLTX-Video VAEデコーダの大規模な実験により,本手法は品質と速度の両方でベースラインを上回り,再現性能を96.9%まで維持しながら約6$\times$スピードアップを達成した。特に、Flash-VAEDは、VBench-2.0で無視できる品質低下を伴って、エンドツーエンド生成パイプラインを最大36%高速化する。

関連論文リスト

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [61.284842030283464]
FlashVSRは、リアルタイムVSRに向けた最初の拡散ベースのワンステップストリーミングフレームワークである。 A100 GPUで768x1408ビデオの約17FPSで動作する。超高解像度に確実にスケールし、従来の1ステップ拡散VSRモデルよりも最大12倍のスピードアップで最先端の性能を達成する。
論文参考訳（メタデータ） (2025-10-14T17:25:54Z)
SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。蒸留を用いて, 拡散復号器の性能を効率よく再現する。これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文参考訳（メタデータ） (2025-10-06T15:57:31Z)
A Lightweight Dual-Mode Optimization for Generative Face Video Coding [26.308480665852052]
生成顔画像符号化(GFVC)は、深部生成モデルの強い推論能力を活用することにより、より優れた速度歪み性能を実現する。本稿では,再構成品質を維持しつつ,複雑性を低減するために2モード最適化を実現する軽量なGFVCフレームワークを提案する。実験の結果,GFVCの軽量デュアルモード最適化は,ベースラインに比べて90.4%のパラメータ削減と88.9%の省力化を実現できることがわかった。
論文参考訳（メタデータ） (2025-08-19T06:09:28Z)
FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion [44.206702976963676]
FPSAttentionは、ビデオ生成のためのFP8量子化とスパーシリティの新たなコデザインである。 1) 量子化とスパーシリティの両方を同時にサポートする統一された3Dタイルワイドの粒度,2) ノイズスケジュールに適応し,量子化/スパーシティエラーとデノナイズステップの強い相関に対処するデノナイズされたステップアウェア戦略,3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネル。
論文参考訳（メタデータ） (2025-06-05T05:30:30Z)
VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。 VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文参考訳（メタデータ） (2025-05-24T17:46:47Z)
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [97.45170082949552]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。 H3AEはGPUとモバイルで超高圧縮比とリアルタイムデコード速度を達成する。
論文参考訳（メタデータ） (2025-04-14T17:59:06Z)
Unleashing Vecset Diffusion Model for Fast Shape Generation [21.757511934035758]
FlashVDMはVecset Diffusion Model (VDM)におけるVAEとDiTの両方を高速化するためのフレームワークである DiTでは、FlashVDMは5つの推論ステップと同等の品質でフレキシブルな拡散サンプリングを可能にする。 VAEでは,適応型KV選択,階層型ボリュームデコーディング,効率的なネットワーク設計を備えた稲妻ベクセットデコーダを導入する。
論文参考訳（メタデータ） (2025-03-20T16:23:44Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。 DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文参考訳（メタデータ） (2024-11-26T17:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。