論文の概要: VMonarch: Efficient Video Diffusion Transformers with Structured Attention
- arxiv url: http://arxiv.org/abs/2601.22275v1
- Date: Thu, 29 Jan 2026 19:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.035638
- Title: VMonarch: Efficient Video Diffusion Transformers with Structured Attention
- Title(参考訳): VMonarch: 構造化された注意を伴う効率的なビデオ拡散変換器
- Authors: Cheng Liang, Haoxian Chen, Liang Hou, Qi Fan, Gangshan Wu, Xin Tao, Limin Wang,
- Abstract要約: その結果,ビデオDiTに現れる高度にスパースな時間的注意パターンは,モナール行列によって自然に表現できることが判明した。
動的スパースパターン上での効率的な最小化を実現するビデオDiTのための新しいアテンション機構であるVMonarchを提案する。
- 参考スコア(独自算出の注目度): 49.26162294859424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of the attention mechanism severely limits the context scalability of Video Diffusion Transformers (DiTs). We find that the highly sparse spatio-temporal attention patterns exhibited in Video DiTs can be naturally represented by the Monarch matrix. It is a class of structured matrices with flexible sparsity, enabling sub-quadratic attention via an alternating minimization algorithm. Accordingly, we propose VMonarch, a novel attention mechanism for Video DiTs that enables efficient computation over the dynamic sparse patterns with structured Monarch matrices. First, we adapt spatio-temporal Monarch factorization to explicitly capture the intra-frame and inter-frame correlations of the video data. Second, we introduce a recomputation strategy to mitigate artifacts arising from instabilities during alternating minimization of Monarch matrices. Third, we propose a novel online entropy algorithm fused into FlashAttention, enabling fast Monarch matrix updates for long sequences. Extensive experiments demonstrate that VMonarch achieves comparable or superior generation quality to full attention on VBench after minimal tuning. It overcomes the attention bottleneck in Video DiTs, reduces attention FLOPs by a factor of 17.5, and achieves a speedup of over 5x in attention computation for long videos, surpassing state-of-the-art sparse attention methods at 90% sparsity.
- Abstract(参考訳): 注意機構の二次的複雑さは、ビデオ拡散変換器(DiT)のコンテキストスケーラビリティを著しく制限する。
その結果,ビデオDiTに現れる空間的注意パターンは,モナール行列で自然に表現できることが判明した。
フレキシブルな空間を持つ構造行列のクラスであり、交互最小化アルゴリズムによって準四分法的な注意を喚起することができる。
そこで本稿では,ビデオDiTのための新しいアテンション機構であるVMonarchを提案する。
まず、ビデオデータのフレーム内およびフレーム間相関を明示的に捉えるために、時空間のモナーキ分解を適用する。
第2に,モナール行列の最小化の交互化において,不安定性に起因するアーティファクトを緩和する再計算戦略を導入する。
第3に,FlashAttentionに融合した新しいオンラインエントロピーアルゴリズムを提案する。
大規模な実験により、VMonarchは最小限のチューニングの後、VBenchに十分な注意を払って、同等または優れた世代品質を達成することが示された。
ビデオDiTの注意ボトルネックを克服し、FLOPを17.5倍に減らし、90%の間隔で最先端のスパースアテンション手法を超越して、長時間ビデオの注意計算を5倍以上高速化する。
関連論文リスト
- PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention [10.244490009712466]
そこで本研究では,モナール行列を用いた準四次的注意近似手法を提案する。
MonarchAttentionはどちらも転送可能で、追加のトレーニングなしでパフォーマンス損失を最小化し、ハードウェア効率が向上する。
視覚や言語問題における多様なタスクやアーキテクチャに対するモナーキアテンションの質を実証する。
論文 参考訳(メタデータ) (2025-05-24T13:44:44Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Revisiting Dynamic Convolution via Matrix Decomposition [81.89967403872147]
チャネル群に対する動的注意を置き換える動的チャネル融合を提案する。
本手法は訓練が容易で,精度を犠牲にすることなくパラメータを著しく削減する。
論文 参考訳(メタデータ) (2021-03-15T23:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。