論文の概要: USV: Unified Sparsification for Accelerating Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.05754v1
- Date: Fri, 05 Dec 2025 14:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.062787
- Title: USV: Unified Sparsification for Accelerating Video Diffusion Models
- Title(参考訳): USV: ビデオ拡散モデルの高速化のための統一されたスパシフィケーション
- Authors: Xinjian Wu, Hongmei Wang, Yuan Zhou, Qinglin Lu,
- Abstract要約: ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
- 参考スコア(独自算出の注目度): 11.011602744993942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scalability of high-fidelity video diffusion models (VDMs) is constrained by two key sources of redundancy: the quadratic complexity of global spatio-temporal attention and the computational overhead of long iterative denoising trajectories. Existing accelerators -- such as sparse attention and step-distilled samplers -- typically target a single dimension in isolation and quickly encounter diminishing returns, as the remaining bottlenecks become dominant. In this work, we introduce USV (Unified Sparsification for Video diffusion models), an end-to-end trainable framework that overcomes this limitation by jointly orchestrating sparsification across both the model's internal computation and its sampling process. USV learns a dynamic, data- and timestep-dependent sparsification policy that prunes redundant attention connections, adaptively merges semantically similar tokens, and reduces denoising steps, treating them not as independent tricks but as coordinated actions within a single optimization objective. This multi-dimensional co-design enables strong mutual reinforcement among previously disjoint acceleration strategies. Extensive experiments on large-scale video generation benchmarks demonstrate that USV achieves up to 83.3% speedup in the denoising process and 22.7% end-to-end acceleration, while maintaining high visual fidelity. Our results highlight unified, dynamic sparsification as a practical path toward efficient, high-quality video generation.
- Abstract(参考訳): 高忠実度ビデオ拡散モデル(VDM)のスケーラビリティは、大域的時空間的注意の2次複雑さと、長い反復的認知軌道の計算オーバーヘッドという、冗長性の2つの重要な源によって制限されている。
既存の加速器、例えばスパース・アテンション(英語版)やステップ・ディスタンス・サンプルラー(英語版)は、通常は単一次元の分離を目標とし、残りのボトルネックが支配的になるとすぐに減少するリターンに遭遇する。
本研究では,この制限を克服し,モデルの内部計算とサンプリングプロセスの両方でスペーシフィケーションを協調的にオーケストレーションする,エンドツーエンドのトレーニング可能なフレームワークであるUSV(Unified Sparsification for Video diffusion model)を紹介する。
USVは、冗長な注意関係を誘発し、意味的に類似したトークンを適応的にマージし、デノナイズステップを独立的なトリックとしてではなく、単一の最適化目標内で協調されたアクションとして扱う、ダイナミックでデータに依存したスペーシフィケーションポリシーを学習する。
この多次元共設計は、前述した不随伴加速戦略間の強い相互強化を可能にする。
大規模なビデオ生成ベンチマークの大規模な実験により、USVは高い視力を維持しながら、デノナイジングプロセスにおいて最大83.3%のスピードアップと22.7%のエンドツーエンド加速を達成した。
この結果から,高画質な映像生成を実現するための現実的な方法として,統一的でダイナミックなスペーシフィケーションが注目されている。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - Bidirectional Sparse Attention for Faster Video Diffusion Training [14.523882232476092]
ビデオ拡散トランスフォーマー(DiT)モデルは、生成品質は優れているが、高解像度の長期ビデオを生成する際に大きな計算ボトルネックにぶつかる。
本稿では,2方向スパースアテンション(BSA)フレームワークを提案する。このフレームワークは,クエリとキー-バリューのペアを動的に3Dフルアテンション内に分散させる。
BSAは長いシーケンスにわたるDiTトレーニングを著しく加速し、FLOPを最大20倍に減らし、17.79倍のアテンショントレーニングを達成した。
論文 参考訳(メタデータ) (2025-09-01T03:16:52Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。
本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。
提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文 参考訳(メタデータ) (2025-06-11T18:34:57Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。