論文の概要: RainFusion2.0: Temporal-Spatial Awareness and Hardware-Efficient Block-wise Sparse Attention
- arxiv url: http://arxiv.org/abs/2512.24086v1
- Date: Tue, 30 Dec 2025 08:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.332063
- Title: RainFusion2.0: Temporal-Spatial Awareness and Hardware-Efficient Block-wise Sparse Attention
- Title(参考訳): RainFusion2.0: 時間空間認識とハードウェア効率の良いブロックワイドスパース注意
- Authors: Aiyue Chen, Yaofu Liu, Junjian Huang, Guang Lian, Yiwu Yao, Wangli Lan, Jing Lin, Zhixin Ma, Tingting Zhou, Harry Yang,
- Abstract要約: RainFusion2.0は、ビデオおよび画像生成モデルを加速するための、オンライン適応性、ハードウェア効率、低オーバーヘッドのスパースアテンションメカニズムである。
ビデオ品質を損なうことなく、エンドツーエンドの1.51.8xのスピードアップを達成できる。
- 参考スコア(独自算出の注目度): 10.041502708600865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video and image generation tasks, Diffusion Transformer (DiT) models incur extremely high computational costs due to attention mechanisms, which limits their practical applications. Furthermore, with hardware advancements, a wide range of devices besides graphics processing unit (GPU), such as application-specific integrated circuit (ASIC), have been increasingly adopted for model inference. Sparse attention, which leverages the inherent sparsity of attention by skipping computations for insignificant tokens, is an effective approach to mitigate computational costs. However, existing sparse attention methods have two critical limitations: the overhead of sparse pattern prediction and the lack of hardware generality, as most of these methods are designed for GPU. To address these challenges, this study proposes RainFusion2.0, which aims to develop an online adaptive, hardware-efficient, and low-overhead sparse attention mechanism to accelerate both video and image generative models, with robust performance across diverse hardware platforms. Key technical insights include: (1) leveraging block-wise mean values as representative tokens for sparse mask prediction; (2) implementing spatiotemporal-aware token permutation; and (3) introducing a first-frame sink mechanism specifically designed for video generation scenarios. Experimental results demonstrate that RainFusion2.0 can achieve 80% sparsity while achieving an end-to-end speedup of 1.5~1.8x without compromising video quality. Moreover, RainFusion2.0 demonstrates effectiveness across various generative models and validates its generalization across diverse hardware platforms.
- Abstract(参考訳): ビデオおよび画像生成タスクでは、Diffusion Transformer (DiT) モデルは、注意機構によって非常に高い計算コストを発生させ、実用的利用を制限する。
さらに、ハードウェアの進歩により、アプリケーション固有の集積回路(ASIC)のようなグラフィックス処理ユニット(GPU)以外の幅広いデバイスがモデル推論に採用されてきている。
無意味なトークンの計算をスキップすることで、注意の空間性を生かしたスパースアテンションは、計算コストを軽減する効果的なアプローチである。
しかし、既存のスパースアテンション手法には、スパースパターン予測のオーバーヘッドとハードウェアの汎用性の欠如の2つの重要な制限がある。
これらの課題に対処するため、RainFusion2.0を提案する。これは、様々なハードウェアプラットフォームにまたがる堅牢なパフォーマンスで、ビデオおよび画像生成モデルの両方を高速化する、オンライン適応性、ハードウェア効率、低オーバヘッドのスパースアテンションメカニズムを開発することを目的としている。
主な技術的洞察は,(1)スパースマスク予測のための代表トークンとしてブロックワイド平均値を活用すること,(2)時空間対応トークン置換を実装すること,(3)ビデオ生成シナリオに特化して設計された第1フレームシンク機構を導入すること,である。
実験の結果,RainFusion2.0はビデオ品質を損なうことなく,エンドツーエンドの1.5~1.8倍のスピードアップを達成できることがわかった。
さらに、RainFusion2.0は様々な生成モデルで有効性を示し、様々なハードウェアプラットフォームでその一般化を検証する。
関連論文リスト
- Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation [21.87891961960399]
Compact Attentionは,3つのイノベーションを特徴とする,ハードウェア対応のアクセラレーションフレームワークだ。
単体GPUのセットアップに注意を向け,1.62.5倍の高速化を実現した。
この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-08-18T14:45:42Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [10.53687668536011]
RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2025-05-27T11:15:02Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。
Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。