論文の概要: Mixture of Distributions Matters: Dynamic Sparse Attention for Efficient Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2601.11641v1
- Date: Wed, 14 Jan 2026 16:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.24218
- Title: Mixture of Distributions Matters: Dynamic Sparse Attention for Efficient Video Diffusion Transformers
- Title(参考訳): 分散の混合:効率的なビデオ拡散変換器のための動的スパース注意
- Authors: Yuxi Liu, Yipeng Hu, Zekun Zhang, Kunze Jiang, Kun Yuan,
- Abstract要約: サンプリング不要な動的アテンションフレームワークMOD-DiTを提案する。
2段階のプロセスを通じて、注意パターンの進化を正確にモデル化する。
従来のスパースアテンションアプローチの計算的制限を克服する。
- 参考スコア(独自算出の注目度): 13.366686736005699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Diffusion Transformers (DiTs) have achieved notable progress in video generation, this long-sequence generation task remains constrained by the quadratic complexity inherent to self-attention mechanisms, creating significant barriers to practical deployment. Although sparse attention methods attempt to address this challenge, existing approaches either rely on oversimplified static patterns or require computationally expensive sampling operations to achieve dynamic sparsity, resulting in inaccurate pattern predictions and degraded generation quality. To overcome these limitations, we propose a \underline{\textbf{M}}ixtrue-\underline{\textbf{O}}f-\underline{\textbf{D}}istribution \textbf{DiT} (\textbf{MOD-DiT}), a novel sampling-free dynamic attention framework that accurately models evolving attention patterns through a two-stage process. First, MOD-DiT leverages prior information from early denoising steps and adopts a {distributed mixing approach} to model an efficient linear approximation model, which is then used to predict mask patterns for a specific denoising interval. Second, an online block masking strategy dynamically applies these predicted masks while maintaining historical sparsity information, eliminating the need for repetitive sampling operations. Extensive evaluations demonstrate consistent acceleration and quality improvements across multiple benchmarks and model architectures, validating MOD-DiT's effectiveness for efficient, high-quality video generation while overcoming the computational limitations of traditional sparse attention approaches.
- Abstract(参考訳): Diffusion Transformers (DiTs) はビデオ生成において顕著な進歩を遂げているが、この長いシーケンス生成タスクは、自己アテンション機構に固有の二次的複雑さによって制約され、実用的なデプロイメントに重大な障壁が生じる。
スパースアテンション手法はこの課題に対処しようとするが、既存のアプローチは過度に単純化された静的パターンに依存するか、動的疎性を達成するために計算に高価なサンプリング操作を必要とするか、不正確なパターン予測と劣化した生成品質をもたらす。
これらの制限を克服するために,2段階プロセスを通じて注目パターンを正確にモデル化する新しいサンプリングフリーな動的注意フレームワークである,Shaunderline{\textbf{M}}ixtrue-\underline{\textbf{O}}f-\underline{\textbf{D}}istribution \textbf{DiT} (\textbf{MOD-DiT})を提案する。
第一に、MOD-DiT は初期の復調段階からの事前情報を活用し、より効率的な線形近似モデルをモデル化するために {distributed mix approach} を採用し、特定の復調区間のマスクパターンを予測するために使用される。
第二に、オンラインのブロックマスキング戦略は、これらの予測マスクを動的に適用し、繰り返しサンプリング操作を不要にしながら、履歴空間情報を保持している。
大規模な評価では、複数のベンチマークやモデルアーキテクチャで一貫した加速と品質の向上が示され、従来のスパースアテンションアプローチの計算的制限を克服しつつ、MOD-DiTの効率、高品質なビデオ生成の有効性が検証された。
関連論文リスト
- Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文 参考訳(メタデータ) (2025-12-24T07:07:08Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling [48.96034602889216]
Variencoding Discrete Diffusion (VADD) は、潜在変数モデリングによる離散拡散を強化する新しいフレームワークである。
補助的認識モデルを導入することにより、VADDはトレーニングセット上の変分下界と償却推論を介して安定したトレーニングを可能にする。
2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-23T01:45:47Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。
計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。
既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文 参考訳(メタデータ) (2024-12-19T07:48:14Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。