論文の概要: Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2509.24899v1
- Date: Mon, 29 Sep 2025 15:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.078444
- Title: Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer
- Title(参考訳): 注意外科:ビデオ拡散変換器をリニア化するための効果的なレシピ
- Authors: Mohsen Ghafoorian, Denis Korzhenkov, Amirhossein Habibian,
- Abstract要約: トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。
テキストリニアライズおよびテキストリニアライズのための効率的なフレームワークであるtextitAttention Surgeryを導入する。
- 参考スコア(独自算出の注目度): 13.545000689565732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based video diffusion models (VDMs) deliver state-of-the-art video generation quality but are constrained by the quadratic cost of self-attention, making long sequences and high resolutions computationally expensive. While linear attention offers sub-quadratic complexity, prior attempts fail to match the expressiveness of softmax attention without costly retraining. We introduce \textit{Attention Surgery}, an efficient framework for \textit{linearizing} or \textit{hybridizing} attention in pretrained VDMs without training from scratch. Inspired by recent advances in language models, our method combines a novel hybrid attention mechanism-mixing softmax and linear tokens-with a lightweight distillation and fine-tuning pipeline requiring only a few GPU-days. Additionally, we incorporate a cost-aware block-rate strategy to balance expressiveness and efficiency across layers. Applied to Wan2.1 1.3B, a state-of-the-art DiT-based VDM, Attention Surgery achieves the first competitive sub-quadratic attention video diffusion models, reducing attention cost by up to 40\% in terms of FLOPs, while maintaining generation quality as measured on the standard VBench and VBench-2.0 benchmarks.
- Abstract(参考訳): トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己アテンションの二次的なコストに制約され、長いシーケンスと高解像度の計算コストがかかる。
線形アテンションは準四分法的な複雑さをもたらすが、事前の試みは、コストのかかる再トレーニングなしにソフトマックスアテンションの表現性とは一致しない。
本研究は,前訓練VDMにおいて,スクラッチからトレーニングを行なわずに,‘textit{linearizing} や‘textit{hybridizing} の注意を喚起するための効果的なフレームワークである ‘textit{Attention Surgery} を紹介した。
近年の言語モデルの発展にインスパイアされた本手法では, ソフトマックスとリニアトークンを混合した新しいハイブリットアテンション機構と, 軽度蒸留と微調整パイプラインを併用する。
さらに、レイヤ間の表現性と効率のバランスをとるために、コスト対応のブロックレート戦略を取り入れます。
最先端の DiT ベースの VDM である Wan2.1 1.3B に適用された注意手術は、最初の競合するサブクアッドレートの注意ビデオ拡散モデルを実現し、標準の VBench と VBench-2.0 ベンチマークで測定された生成品質を維持しながら、FLOP の点において、注意コストを最大40%削減する。
関連論文リスト
- LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers [10.830662834634879]
ReHyAtは、ソフトマックスアテンションの忠実度と線形アテンションの効率を結合するハイブリッドアテンション機構である。
実験により,ReHyAtは2次から線形への注目コストを低減しつつ,最先端の映像品質を実現することが示された。
論文 参考訳(メタデータ) (2026-01-07T19:26:30Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation [19.69237169218592]
対象とする自己注意モジュール数を線形注意で置き換える,効率的なデータフリーポストトレーニングフレームワークを提案する。
生成品質を保ちながら1.25-2.00xの高速化を実現し、4段階蒸留モデルにより、視覚的品質低下を最小限に抑えた15.92倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2025-10-09T15:03:39Z) - Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [17.18501092926442]
ビデオ推論のためのデータフリーのジョイントトレーニングフレームワークBLADEを提案する。
私たちのフレームワークは、さまざまなスケールで顕著な効率向上を示します。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [23.01286982392074]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [10.53687668536011]
RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2025-05-27T11:15:02Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。