論文の概要: MonarchRT: Efficient Attention for Real-Time Video Generation
- arxiv url: http://arxiv.org/abs/2602.12271v1
- Date: Thu, 12 Feb 2026 18:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.995792
- Title: MonarchRT: Efficient Attention for Real-Time Video Generation
- Title(参考訳): MonarchRT: リアルタイムビデオ生成のための効率的な注意
- Authors: Krish Agarwal, Zhuoming Chen, Cheng Luo, Yongqi Chen, Haizhong Zheng, Xun Huang, Atri Rudra, Beidi Chen,
- Abstract要約: 本稿では,ビデオ拡散モデルに対するスパースアテンションパラメータ化を構造化したMonarch-RTを提案する。
計算効率を保ちながら高い表現性を達成する。
Monarch-RTは、最先端のSelf-Forcingに適用すると、品質を損なうことなく、95%の注目を集める。
- 参考スコア(独自算出の注目度): 36.624688008552546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time video generation with Diffusion Transformers is bottlenecked by the quadratic cost of 3D self-attention, especially in real-time regimes that are both few-step and autoregressive, where errors compound across time and each denoising step must carry substantially more information. In this setting, we find that prior sparse-attention approximations break down, despite showing strong results for bidirectional, many-step diffusion. Specifically, we observe that video attention is not reliably sparse, but instead combines pronounced periodic structure driven by spatiotemporal position with dynamic, sparse semantic correspondences and dense mixing, exceeding the representational capacity of even oracle top-k attention. Building on this insight, we propose Monarch-RT, a structured attention parameterization for video diffusion models that factorizes attention using Monarch matrices. Through appropriately aligned block structure and our extended tiled Monarch parameterization, we achieve high expressivity while preserving computational efficiency. We further overcome the overhead of parameterization through finetuning, with custom Triton kernels. We first validate the high efficacy of Monarch-RT over existing sparse baselines designed only for bidirectional models. We further observe that Monarch-RT attains up to 95% attention sparsity with no loss in quality when applied to the state-of-the-art model Self-Forcing, making Monarch-RT a pioneering work on highly-capable sparse attention parameterization for real-time video generation. Our optimized implementation outperforms FlashAttention-2, FlashAttention-3, and FlashAttention-4 kernels on Nvidia RTX 5090, H100, and B200 GPUs respectively, providing kernel speedups in the range of 1.4-11.8X. This enables us, for the first time, to achieve true real-time video generation with Self-Forcing at 16 FPS on a single RTX 5090.
- Abstract(参考訳): Diffusion Transformersを用いたリアルタイムビデオ生成は、特に数ステップと自己回帰の両方のリアルタイムなレジームにおいて、3次元自己注意の二次的なコストによってボトルネックとなる。
この設定では、双方向多段階拡散の強い結果を示したにもかかわらず、事前のスパースアテンション近似は崩壊する。
具体的には、ビデオの注意は確実にスパースではなく、時空間的位置によって駆動される顕著な周期構造と、動的でスパースな意味的対応と密混合を組み合わせ、オラクルトップクの注意力の表現能力を超えることを観察する。
この知見に基づいて、モナール行列を用いて注意を分解するビデオ拡散モデルのための構造化された注意パラメータ化であるモナール-RTを提案する。
適切に整列されたブロック構造と拡張されたモナールパラメータ化により,計算効率を保ちながら高い表現性を実現する。
さらに、カスタムトリトンカーネルによる微調整によるパラメータ化のオーバーヘッドを克服する。
まず, 2方向モデルのみに設計したスパースベースラインに対して, Monarch-RT の有効性を検証した。
さらに、モナール-RTは、最先端の自己強制モデルに適用した場合、品質を損なうことなく95%の注意空間を達成でき、モナール-RTは、リアルタイムビデオ生成のための高機能なスパースアテンションパラメータ化のパイオニアとなる。
最適化された実装は,Nvidia RTX 5090, H100, B200 GPU上でそれぞれFlashAttention-2, FlashAttention-3, FlashAttention-4カーネルより優れ,1.4-11.8Xの範囲でのカーネル高速化を実現している。
これにより、1台のRTX 5090上で16FPSのセルフフォースでリアルタイムビデオ生成を実現することができる。
関連論文リスト
- VMonarch: Efficient Video Diffusion Transformers with Structured Attention [49.26162294859424]
その結果,ビデオDiTに現れる高度にスパースな時間的注意パターンは,モナール行列によって自然に表現できることが判明した。
動的スパースパターン上での効率的な最小化を実現するビデオDiTのための新しいアテンション機構であるVMonarchを提案する。
論文 参考訳(メタデータ) (2026-01-29T19:48:13Z) - Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation [21.87891961960399]
Compact Attentionは,3つのイノベーションを特徴とする,ハードウェア対応のアクセラレーションフレームワークだ。
単体GPUのセットアップに注意を向け,1.62.5倍の高速化を実現した。
この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-18T14:45:42Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。