論文の概要: RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy
- arxiv url: http://arxiv.org/abs/2505.21036v2
- Date: Mon, 09 Jun 2025 11:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.147472
- Title: RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy
- Title(参考訳): RainFusion: 多次元視覚冗長性による適応型ビデオ生成高速化
- Authors: Aiyue Chen, Bin Dong, Jingru Li, Jing Lin, Kun Tian, Yiwu Yao, Gongyi Wang,
- Abstract要約: RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
- 参考スコア(独自算出の注目度): 10.53687668536011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation using diffusion models is highly computationally intensive, with 3D attention in Diffusion Transformer (DiT) models accounting for over 80\% of the total computational resources. In this work, we introduce {\bf RainFusion}, a novel training-free sparse attention method that exploits inherent sparsity nature in visual data to accelerate attention computation while preserving video quality. Specifically, we identify three unique sparse patterns in video generation attention calculations--Spatial Pattern, Temporal Pattern and Textural Pattern. The sparse pattern for each attention head is determined online with negligible overhead (\textasciitilde\,0.2\%) with our proposed {\bf ARM} (Adaptive Recognition Module) during inference. Our proposed {\bf RainFusion} is a plug-and-play method, that can be seamlessly integrated into state-of-the-art 3D-attention video generation models without additional training or calibration. We evaluate our method on leading open-sourced models including HunyuanVideo, OpenSoraPlan-1.2 and CogVideoX-5B, demonstrating its broad applicability and effectiveness. Experimental results show that RainFusion achieves over {\bf 2\(\times\)} speedup in attention computation while maintaining video quality, with only a minimal impact on VBench scores (-0.2\%).
- Abstract(参考訳): 拡散モデルを用いたビデオ生成は非常に計算集約的であり、Diffusion Transformer(DiT)モデルでは計算資源全体の80%以上を占めている。
本研究では,映像品質を保ちながら注意計算を高速化するために,視覚データに固有の空間特性を活用する,新しいトレーニング不要なスパースアテンション手法である {\bf RainFusion を紹介する。
具体的には,映像生成アテンション計算において,空間パターン,時間パターン,テクスチャパターンの3つの特異なスパースパターンを同定する。
各アテンションヘッドのスパースパターンは、推論中に提案した {\bf ARM} (Adaptive Recognition Module) を用いて、無視可能なオーバーヘッド (\textasciitilde\,0.2\%) でオンライン決定される。
提案した {\bf RainFusion} はプラグ・アンド・プレイ方式であり, トレーニングやキャリブレーションを伴わずに, 最先端の3Dアテンションビデオ生成モデルにシームレスに統合できる。
我々は,HunyuanVideo,OpenSoraPlan-1.2,CogVideoX-5Bなど,主要なオープンソースモデルについて評価を行い,その適用性と有効性を示した。
実験結果から,RainFusionはVBenchスコア(-0.2\%)に最小限の影響しか与えず,映像品質を維持しながら注意計算の高速化を実現していることがわかった。
関連論文リスト
- Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.913893318345384]
3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文 参考訳(メタデータ) (2025-02-10T05:00:56Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。