論文の概要: Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation
- arxiv url: http://arxiv.org/abs/2506.19852v1
- Date: Tue, 24 Jun 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.773904
- Title: Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation
- Title(参考訳): Radial Attention:$O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation
- Authors: Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han,
- Abstract要約: ラジアル注意(英: Radial Attention)は、エネルギー崩壊を指数関数的に減衰する計算密度に変換する、$O(n log n)$の複雑さを持つスケーラブルなスパース注意機構である。
Wan2.1-14B、HunyuanVideo、Mochi 1の動画品質を維持しており、オリジナルより1.9ドルのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 74.34633861289662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have enabled high-quality video generation, but the additional temporal dimension significantly increases computational costs, making training and inference on long videos prohibitively expensive. In this paper, we identify a phenomenon we term Spatiotemporal Energy Decay in video diffusion models: post-softmax attention scores diminish as spatial and temporal distance between tokens increase, akin to the physical decay of signal or waves over space and time in nature. Motivated by this, we propose Radial Attention, a scalable sparse attention mechanism with $O(n \log n)$ complexity that translates energy decay into exponentially decaying compute density, which is significantly more efficient than standard $O(n^2)$ dense attention and more expressive than linear attention. Specifically, Radial Attention employs a simple, static attention mask where each token attends to spatially nearby tokens, with the attention window size shrinking with temporal distance. Moreover, it allows pre-trained video diffusion models to extend their generation length with efficient LoRA-based fine-tuning. Extensive experiments show that Radial Attention maintains video quality across Wan2.1-14B, HunyuanVideo, and Mochi 1, achieving up to a 1.9$\times$ speedup over the original dense attention. With minimal tuning, it enables video generation up to 4$\times$ longer while reducing training costs by up to 4.4$\times$ compared to direct fine-tuning and accelerating inference by up to 3.7$\times$ compared to dense attention inference.
- Abstract(参考訳): 拡散モデルの最近の進歩により高品質なビデオ生成が可能になったが、時間次元の追加により計算コストが大幅に増加し、長いビデオのトレーニングや推論が不当に高価になった。
本稿では,映像拡散モデルにおける時空間エネルギー減少という現象を,トークン間の空間的・時間的距離が増大するにつれて減少する現象について述べる。
これを動機として,エネルギー崩壊を指数関数的に減衰する計算密度に変換する複雑さを持つスケーラブルなスパースアテンション機構であるRadial Attentionを提案し,これは標準の$O(n^2)$より効率的であり,線形アテンションよりも表現力が高い。
具体的には、Radial Attentionは単純な静的なアテンションマスクを使用し、それぞれのトークンが空間的に近接するトークンに出席し、アテンションウィンドウサイズは時間的距離で縮小する。
さらに、学習済みビデオ拡散モデルにより、効率的なLoRAファインチューニングにより、生成長を拡張できる。
広範囲にわたる実験により、Radeial AttentionはWan2.1-14B、HunyuanVideo、Mochi 1の動画品質を維持しており、元々の高密度な注目に対する1.9$\times$のスピードアップを達成している。
最小限のチューニングでは、トレーニングコストを4.4$\times$まで削減し、直接の微調整よりも4.4$\times$まで短縮し、集中的な注意推論に比べて最大3.7$\times$まで加速することができる。
関連論文リスト
- VideoMAR: Autoregressive Video Generatio with Continuous Tokens [33.906543515428424]
マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。
連続トークンを用いたデコーダのみの自己回帰画像-ビデオモデルである textbfVideoMAR を提案する。
VideoMARは以前の最先端(Cosmos I2V)よりはるかに少ないパラメータを必要とする。
論文 参考訳(メタデータ) (2025-06-17T04:08:18Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [21.593548582058403]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers [14.402483491830138]
Diffusion Transformers (DiT) は高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
機能キャッシングは、前のタイムステップで機能をキャッシュし、次のタイムステップでそれらを再利用することで、拡散モデルを加速するために提案されている。
我々はTaylorSeerを提案する。これはまず、将来の時間ステップにおける拡散モデルの特徴を、過去の時間ステップにおけるそれらの値に基づいて予測できることを示す。
論文 参考訳(メタデータ) (2025-03-10T05:09:42Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way [72.1984861448374]
ByTheWayは、追加のパラメータやメモリ増設、サンプリング時間を導入することなく、テキスト・ビデオ生成の品質を向上させるためのトレーニング不要の方法である。
様々なデコーダブロックにまたがる時間的アテンションマップ間の差異を低減することにより、生成されたビデオの構造的妥当性と時間的一貫性を向上させる。
地図のエネルギーを増幅することで、運動の大きさと豊かさを高める。
論文 参考訳(メタデータ) (2024-10-08T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。