論文の概要: Fast Video Generation with Sliding Tile Attention
- arxiv url: http://arxiv.org/abs/2502.04507v2
- Date: Mon, 26 May 2025 04:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.303566
- Title: Fast Video Generation with Sliding Tile Attention
- Title(参考訳): スライディングタイルアテンションによる高速ビデオ生成
- Authors: Peiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhengzhong Liu, Hao Zhang,
- Abstract要約: たった5秒の720P動画を撮ると、945秒の推測時間のうち800秒は注意がかかります。
本稿では,この課題に対処するためにスライディングタイルアテンション(STA)を導入する。
STAは、新しいハードウェア対応のスライディングウインドウデザインでタイル・バイ・タイルを動作させ、ハードウェア効率を保ちながら表現性を保っている。
- 参考スコア(独自算出の注目度): 20.229547419108087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) with 3D full attention power state-of-the-art video generation, but suffer from prohibitive compute cost -- when generating just a 5-second 720P video, attention alone takes 800 out of 945 seconds of total inference time. This paper introduces sliding tile attention (STA) to address this challenge. STA leverages the observation that attention scores in pretrained video diffusion models predominantly concentrate within localized 3D windows. By sliding and attending over the local spatial-temporal region, STA eliminates redundancy from full attention. Unlike traditional token-wise sliding window attention (SWA), STA operates tile-by-tile with a novel hardware-aware sliding window design, preserving expressiveness while being hardware-efficient. With careful kernel-level optimizations, STA offers the first efficient 2D/3D sliding-window-like attention implementation, achieving 58.79% MFU. Precisely, STA accelerates attention by 2.8-17x over FlashAttention-2 (FA2) and 1.6-10x over FlashAttention-3 (FA3). On the leading video DiT, HunyuanVideo, STA reduces end-to-end latency from 945s (FA3) to 685s without quality degradation, requiring no training. Enabling finetuning further lowers latency to 268s with only a 0.09% drop on VBench. We make our codebase public at https://github.com/hao-ai-lab/FastVideo.
- Abstract(参考訳): Diffusion Transformer(DiTs)は3Dのフルアテンション・パワー・オブ・ザ・アーティカル・ビデオ生成だが、わずか5秒の720Pビデオを生成する場合の計算コストは禁じられている。
本稿では,この課題に対処するためにスライディングタイルアテンション(STA)を導入する。
STAは、事前訓練されたビデオ拡散モデルにおける注意点が、主に局所的な3Dウィンドウに集中しているという観察を活用している。
STAは局所的空間時間領域を滑走して参加することにより、完全な注意から冗長性を排除する。
従来のトークンワイド・スライディング・ウィンドウ・アテンション(SWA)とは異なり、STAは、ハードウェアを意識した新しいスライディング・ウインドウ・デザインでタイル・バイ・タイルを運用し、ハードウェア効率を保ちながら表現性を保っている。
注意深いカーネルレベルの最適化により、STAは初めて効率的な2D/3Dスライドウインドウのようなアテンション実装を提供し、58.79%のMFUを達成した。
正確には、STAはFlashAttention-2 (FA2) の2.8-17x、FlashAttention-3 (FA3) の1.6-10xに注意を向けている。
DiTのリードビデオであるHunyuanVideoでは、STAは、エンドツーエンドのレイテンシを945s(FA3)から685sに削減し、品質を劣化させることなく、トレーニングを不要にしている。
微調整により、レイテンシはさらに268に低下し、VBenchではわずか0.09%の低下しか発生しない。
コードベースはhttps://github.com/hao-ai-lab/FastVideo.comで公開しています。
関連論文リスト
- Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation [74.34633861289662]
ラジアル注意(英: Radial Attention)は、エネルギー崩壊を指数関数的に減衰する計算密度に変換する、$O(n log n)$の複雑さを持つスケーラブルなスパース注意機構である。
Wan2.1-14B、HunyuanVideo、Mochi 1の動画品質を維持しており、オリジナルより1.9ドルのスピードアップを実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:59Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [23.01286982392074]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [21.593548582058403]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance [43.423240627266644]
拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかしながら、その計算コストは、ボトルネック注意だけで、全体の80%以上の遅延の原因となっている。
本稿では,GPUに動的に注意を向けたビデオ拡散変換器の高速化のためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:34:34Z) - Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.913893318345384]
3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文 参考訳(メタデータ) (2025-02-10T05:00:56Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - RAIN: Real-time Animation of Infinite Video Stream [52.97171098038888]
RAINは、低レイテンシで、無限のビデオストリームをリアルタイムでアニメーションできるパイプラインソリューションである。
RAINは、より短いレイテンシと高速な速度でビデオフレームを生成すると同時に、拡張されたビデオストリームに対する長距離の注意を維持する。
RAINは、競合他社よりもはるかに優れた品質、正確性、一貫性で、リアルタイムにキャラクタをアニメーションすることができる。
論文 参考訳(メタデータ) (2024-12-27T07:13:15Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - MaskVD: Region Masking for Efficient Video Object Detection [11.759503235646696]
ビデオタスクは計算量が多く、リアルタイムアプリケーションにデプロイする際の課題となる。
本稿では,ビデオフレームにおけるマスキング領域の戦略を提案する。
以前のフレームから抽出した特徴を活用することで、ViTバックボーンはリージョンマスキングの恩恵を直接受けられる。
論文 参考訳(メタデータ) (2024-07-16T08:01:49Z) - FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-11T15:44:48Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z) - DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition [140.66371549815034]
本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
論文 参考訳(メタデータ) (2021-12-09T03:05:19Z) - TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device [58.776352999540435]
本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。
TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。
Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
論文 参考訳(メタデータ) (2021-09-27T17:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。