論文の概要: Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation
- arxiv url: http://arxiv.org/abs/2604.12219v1
- Date: Tue, 14 Apr 2026 02:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.204935
- Title: Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation
- Title(参考訳): 波に乗る:スムーズなビデオ生成のための高精度なスパークアテンション
- Authors: Wentai Zhang, Ronghui Xi, Shiyao Peng, Jiayu Huang, Haoran Luo, Zichen Tang, Haihong E,
- Abstract要約: ビデオ拡散変換器は高忠実度ビデオ生成に革命をもたらしたが、自己注意の膨大な計算負担に悩まされている。
PASA(Precision-Allocated Sparse Attention)は,高効率かつ時間的にスムーズなビデオ生成を目的としたトレーニングフリーフレームワークである。
- 参考スコア(独自算出の注目度): 9.132288507881592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Diffusion Transformers have revolutionized high-fidelity video generation but suffer from the massive computational burden of self-attention. While sparse attention provides a promising acceleration solution, existing methods frequently provoke severe visual flickering caused by static sparsity patterns and deterministic block routing. To resolve these limitations, we propose Precision-Allocated Sparse Attention (PASA), a training-free framework designed for highly efficient and temporally smooth video generation. First, we implement a curvature-aware dynamic budgeting mechanism. By profiling the generation trajectory acceleration across timesteps, we elastically allocate the exact-computation budget to secure high-precision processing strictly during critical semantic transitions. Second, we replace global homogenizing estimations with hardware-aligned grouped approximations, successfully capturing fine-grained local variations while maintaining peak compute throughput. Finally, we incorporate a stochastic selection bias into the attention routing mechanism. This probabilistic approach softens rigid selection boundaries and eliminates selection oscillation, effectively eradicating the localized computational starvation that drives temporal flickering. Extensive evaluations on leading video diffusion models demonstrate that PASA achieves substantial inference acceleration while consistently producing remarkably fluid and structurally stable video sequences.
- Abstract(参考訳): ビデオ拡散変換器は高忠実度ビデオ生成に革命をもたらしたが、自己注意の膨大な計算負担に悩まされている。
スパース・アテンションは有望なアクセラレーション・ソリューションを提供するが、既存の手法は静的なスパーシティ・パターンと決定論的ブロック・ルーティングによって引き起こされる深刻な視覚的フリッカリングをしばしば引き起こす。
これらの制約を解決するために,高効率かつ時間的にスムーズなビデオ生成を目的としたトレーニングフリーフレームワークであるPrecision-Allocated Sparse Attention (PASA)を提案する。
まず,曲率を考慮した動的予算化機構を実装した。
時間ステップ間で発生軌道加速度をプロファイリングすることにより、臨界セマンティック遷移の間、高精度な処理を厳密に確保するために正確な計算予算を弾性的に割り当てる。
第2に,グローバルな均質化推定をハードウェアに整列したグループ近似に置き換え,計算スループットのピークを維持しながら局所的な微粒化を達成した。
最後に、注意ルーティング機構に確率的選択バイアスを組み込む。
この確率論的アプローチは厳密な選択境界を和らげ、選択の振動を排除し、時間的フリッカリングを駆動する局所的な計算飢餓を効果的に根絶する。
先行するビデオ拡散モデルに対する広範囲な評価は、PASAが極めて流動的で構造的に安定したビデオシーケンスを連続的に生成しながら、相当な推論加速を達成することを示す。
関連論文リスト
- Motion-Adaptive Temporal Attention for Lightweight Video Generation with Stable Diffusion [1.9349092719498848]
凍結安定拡散モデルに基づくパラメータ効率の高いビデオ生成のための動き適応型時間的注意機構を提案する。
カスケード戦略により、UNetトランスフォーマーブロックに軽量な時間的アテンションモジュールを注入する。
我々のアブレーション研究は、ノイズ相関と運動振幅との明確なトレードオフを明らかにし、多様な生成行動に対する実用的な推論時間制御を提供する。
論文 参考訳(メタデータ) (2026-03-18T06:20:57Z) - Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers [10.751183015853863]
拡散変換器(DiT)は高忠実度画像とビデオ生成のバックボーンとして広く採用されている。
線形多段階問題として特徴予測を定式化する,トレーニング不要なアクセラレーションフレームワークである textbfPrediT を提案する。
提案手法は,DiTベースの画像およびビデオ生成モデル間で最大5.54タイムのレイテンシ低減を実現し,品質劣化を生じさせる。
論文 参考訳(メタデータ) (2026-02-20T09:33:59Z) - LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文 参考訳(メタデータ) (2025-11-14T08:26:55Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:10:54Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。