論文の概要: VORTA: Efficient Video Diffusion via Routing Sparse Attention
- arxiv url: http://arxiv.org/abs/2505.18809v1
- Date: Sat, 24 May 2025 17:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.670981
- Title: VORTA: Efficient Video Diffusion via Routing Sparse Attention
- Title(参考訳): VORTA: ルーティングスパース注意による効率的なビデオ拡散
- Authors: Wenhao Sun, Rong-Cheng Tu, Yifu Ding, Zhao Jin, Jingyi Liao, Shunyu Liu, Dacheng Tao,
- Abstract要約: ビデオ拡散変換器(VDiT)は高品質なビデオ生成において顕著な進歩を遂げているが、計算コストは依然として高い。
2つの新しいコンポーネントを持つ加速度フレームワーク VORTA を提案する。
VBenchでは品質を損なうことなく、エンドツーエンドのスピードアップを1.76タイムで達成している。
- 参考スコア(独自算出の注目度): 45.269274789183974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Diffusion Transformers (VDiTs) have achieved remarkable progress in high-quality video generation, but remain computationally expensive due to the quadratic complexity of attention over high-dimensional video sequences. Recent attention acceleration methods leverage the sparsity of attention patterns to improve efficiency; however, they often overlook inefficiencies of redundant long-range interactions. To address this problem, we propose \textbf{VORTA}, an acceleration framework with two novel components: 1) a sparse attention mechanism that efficiently captures long-range dependencies, and 2) a routing strategy that adaptively replaces full 3D attention with specialized sparse attention variants throughout the sampling process. It achieves a $1.76\times$ end-to-end speedup without quality loss on VBench. Furthermore, VORTA can seamlessly integrate with various other acceleration methods, such as caching and step distillation, reaching up to $14.41\times$ speedup with negligible performance degradation. VORTA demonstrates its efficiency and enhances the practicality of VDiTs in real-world settings.
- Abstract(参考訳): ビデオ拡散変換器(VDiT)は、高品質なビデオ生成において顕著な進歩を遂げているが、高次元ビデオ列に対する注意の二次的複雑さのため、計算コストは高い。
近年の注意促進法は、注意パターンの空間性を利用して効率を向上させるが、冗長な長距離相互作用の非効率さをしばしば見落としている。
この問題に対処するために,2つの新しいコンポーネントを持つアクセラレーションフレームワークである \textbf{VORTA} を提案する。
1) 長距離依存を効果的に把握するスパースアテンション機構、及び
2) サンプリングプロセスを通して, フル3次元の注意を, 特別なスパークアテンションに置き換えるルーティング戦略を提案する。
VBenchで品質を損なうことなく、エンド・ツー・エンドのスピードアップで1.76\times$を達成している。
さらに、VORTAはキャッシュやステップ蒸留といった他の様々な加速手法とシームレスに統合でき、14.41\times$スピードアップまで到達でき、性能劣化は無視できる。
VORTAはその効率を実証し、現実世界の設定におけるVDiTの実用性を高める。
関連論文リスト
- VMoBA: Mixture-of-Block Attention for Video Diffusion Models [29.183614108287276]
本稿では,ビデオ拡散モデル(VDM)に特化して適応する新しい注意機構,VMoBAについて紹介する。
VMoBAは、事前訓練されたビデオトランスフォーマー内の注意パターンの詳細な分析によって、オリジナルのMoBAフレームワークを3つの重要な修正で強化する。
VMoBAは、長いシーケンスでのVDMのトレーニングを著しく加速し、2.92倍のFLOPと1.48倍のレイテンシ高速化を実現している。
論文 参考訳(メタデータ) (2025-06-30T13:52:31Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。
FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文 参考訳(メタデータ) (2025-06-05T12:31:02Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation [26.045123066151838]
SRDiffusionは、大小モデルの協調を利用して推論コストを削減する新しいフレームワークである。
提案手法は,既存のアクセラレーション戦略の新たな方向性として導入され,スケーラブルなビデオ生成のための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-25T13:58:52Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration [45.62669899834342]
拡散変換器(DiT)は高品質なビデオを生成するのに有効であることが証明されているが、高い計算コストによって妨げられている。
本稿では,ビデオDiTの高速化を目的としたトレーニングフリーでモデルに依存しない非対称リダクション・アンド・リカバリ法(AsymRnR)を提案する。
論文 参考訳(メタデータ) (2024-12-16T12:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。