Fugu-MT 論文翻訳(概要): Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer

論文の概要: Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer

arxiv url: http://arxiv.org/abs/2509.24899v1
Date: Mon, 29 Sep 2025 15:09:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:20.078444
Title: Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer
Title（参考訳）: 注意外科:ビデオ拡散変換器をリニア化するための効果的なレシピ
Authors: Mohsen Ghafoorian, Denis Korzhenkov, Amirhossein Habibian,
Abstract要約: トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。テキストリニアライズおよびテキストリニアライズのための効率的なフレームワークであるtextitAttention Surgeryを導入する。
参考スコア（独自算出の注目度）: 13.545000689565732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based video diffusion models (VDMs) deliver state-of-the-art video generation quality but are constrained by the quadratic cost of self-attention, making long sequences and high resolutions computationally expensive. While linear attention offers sub-quadratic complexity, prior attempts fail to match the expressiveness of softmax attention without costly retraining. We introduce \textit{Attention Surgery}, an efficient framework for \textit{linearizing} or \textit{hybridizing} attention in pretrained VDMs without training from scratch. Inspired by recent advances in language models, our method combines a novel hybrid attention mechanism-mixing softmax and linear tokens-with a lightweight distillation and fine-tuning pipeline requiring only a few GPU-days. Additionally, we incorporate a cost-aware block-rate strategy to balance expressiveness and efficiency across layers. Applied to Wan2.1 1.3B, a state-of-the-art DiT-based VDM, Attention Surgery achieves the first competitive sub-quadratic attention video diffusion models, reducing attention cost by up to 40\% in terms of FLOPs, while maintaining generation quality as measured on the standard VBench and VBench-2.0 benchmarks.
Abstract（参考訳）: トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己アテンションの二次的なコストに制約され、長いシーケンスと高解像度の計算コストがかかる。線形アテンションは準四分法的な複雑さをもたらすが、事前の試みは、コストのかかる再トレーニングなしにソフトマックスアテンションの表現性とは一致しない。本研究は,前訓練VDMにおいて,スクラッチからトレーニングを行なわずに,‘textit{linearizing} や‘textit{hybridizing} の注意を喚起するための効果的なフレームワークである ‘textit{Attention Surgery} を紹介した。近年の言語モデルの発展にインスパイアされた本手法では, ソフトマックスとリニアトークンを混合した新しいハイブリットアテンション機構と, 軽度蒸留と微調整パイプラインを併用する。さらに、レイヤ間の表現性と効率のバランスをとるために、コスト対応のブロックレート戦略を取り入れます。最先端の DiT ベースの VDM である Wan2.1 1.3B に適用された注意手術は、最初の競合するサブクアッドレートの注意ビデオ拡散モデルを実現し、標準の VBench と VBench-2.0 ベンチマークで測定された生成品質を維持しながら、FLOP の点において、注意コストを最大40%削減する。

関連論文リスト

Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [17.18501092926442]
ビデオ推論のためのデータフリーのジョイントトレーニングフレームワークBLADEを提案する。私たちのフレームワークは、さまざまなスケールで顕著な効率向上を示します。短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文参考訳（メタデータ） (2025-08-14T15:58:59Z)
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [23.01286982392074]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文参考訳（メタデータ） (2025-05-28T22:39:12Z)
RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [10.53687668536011]
RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文参考訳（メタデータ） (2025-05-27T11:15:02Z)
Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文参考訳（メタデータ） (2025-05-22T16:21:32Z)
DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。 DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文参考訳（メタデータ） (2025-02-11T14:39:59Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。 VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文参考訳（メタデータ） (2024-07-27T08:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。