論文の概要: VMoBA: Mixture-of-Block Attention for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.23858v1
- Date: Mon, 30 Jun 2025 13:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.087492
- Title: VMoBA: Mixture-of-Block Attention for Video Diffusion Models
- Title(参考訳): VMoBA:ビデオ拡散モデルのための混合ブロック注意
- Authors: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong,
- Abstract要約: 本稿では,ビデオ拡散モデル(VDM)に特化して適応する新しい注意機構,VMoBAについて紹介する。
VMoBAは、事前訓練されたビデオトランスフォーマー内の注意パターンの詳細な分析によって、オリジナルのMoBAフレームワークを3つの重要な修正で強化する。
VMoBAは、長いシーケンスでのVDMのトレーニングを著しく加速し、2.92倍のFLOPと1.48倍のレイテンシ高速化を実現している。
- 参考スコア(独自算出の注目度): 29.183614108287276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.
- Abstract(参考訳): フルアテンション機構の二次的複雑さは、長時間の高解像度ビデオの生成を目的としたビデオ拡散モデル(VDM)において重大なボトルネックとなる。
様々なスパースアテンション手法が提案されているが、その多くはトレーニング不要な推論アクセラレータとして設計されているか、ネイティブにトレーニングする場合にビデオデータに固有の時空間特性を最適に捉えていないものが多い。
本稿では,VDMに特化して適応する新しいスパークアテンション機構であるビデオミクチャー・オブ・ブロックアテンション(VMoBA)を紹介する。
事前学習したビデオトランスにおける注意パターンの詳細な分析により,強い時空間的局所性,クエリの重要度,および頭部特異的濃度が明らかにされたVMoBAは,(1)多様な時空間的注意パターンへの動的適応と効率向上を目的とした階層的再帰的ブロック分割スキーム(1D-2D-3D),(2)注目ヘッド全体にわたる最も健全なクエリキーブロックの相互作用を優先順位付けするグローバルブロック選択,(3)累積的類似性に基づいて出席ブロックの数を動的に決定するしきい値ベースのブロック選択,の3つの主要な変更により,元のMoBAフレームワークを強化する。
大規模な実験により、VMoBAはより長いシーケンスでのVDMのトレーニングを著しく加速し、2.92倍のFLOPと1.48倍のレイテンシのスピードアップを達成した。
さらに、VMoBAはトレーニングなし推論における競合性能を示し、2.40倍のFLOPと1.35倍の遅延スピードアップを提供する。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [45.269274789183974]
ビデオ拡散変換器(VDiT)は高品質なビデオ生成において顕著な進歩を遂げているが、計算コストは依然として高い。
2つの新しいコンポーネントを持つ加速度フレームワーク VORTA を提案する。
VBenchでは品質を損なうことなく、エンドツーエンドのスピードアップを1.76タイムで達成している。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [21.593548582058403]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。