論文の概要: SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2601.16515v1
- Date: Fri, 23 Jan 2026 07:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.59139
- Title: SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
- Title(参考訳): SALAD:ビデオ拡散変換器の効率的な線形アテンションチューニングによる高間隔アテンションの実現
- Authors: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang,
- Abstract要約: 拡散変換器は近年,映像生成において顕著な性能を示した。
SALADの提案は、疎度な注意と並行して、軽量な線形注意分岐を導入することである。
提案手法は,全注目ベースラインに匹敵する生成品質を維持しつつ,90%の間隔と1.72倍の推論高速化を実現する。
- 参考スコア(独自算出の注目度): 58.79642223409644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.
- Abstract(参考訳): 拡散変換器は近年,映像生成において顕著な性能を示した。
しかし、長い入力シーケンスは、完全な注意の二次的な複雑さのため、高い計算遅延をもたらす。
様々な注意機構が提案されている。
トレーニングなしのスパースアテンションは、限られた間隔で制限され、したがって緩やかな加速を提供するが、トレーニングベースの手法は、より高い間隔に到達できるが、トレーニングのためにかなりのデータと計算を必要とする。
本研究では,SALADを提案する。SALADは軽量な線形アテンション分岐と疎アテンションを並列に導入する。
入力依存型ゲーティング機構を組み込んで2つの分岐を微調整することにより、全注目基準に匹敵する生成品質を維持しつつ、90%の間隔と1.72倍の推論高速化を実現した。
さらに,2千本のビデオサンプルと1,600段のトレーニングステップをバッチサイズ8。
関連論文リスト
- Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer [13.545000689565732]
トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。
我々は,訓練前のVDMの注意をスクラッチからトレーニングすることなくリニアライズあるいはハイブリダイズするための効果的なフレームワークである注意外科を紹介した。
論文 参考訳(メタデータ) (2025-09-29T15:09:51Z) - SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention [88.47701139980636]
Diffusion Transformer(DiT)モデルでは、特にビデオ生成において、注意遅延が大きなボトルネックとなっている。
注目重量は2つの部分に分けられる: 高いランクの大型重量のごく一部と、非常に低いランクの残りの重量の2つである。
本稿では,拡散モデルを高速化するために,疎度と直線的注意を融合させる訓練可能な注意法SLAを提案する。
論文 参考訳(メタデータ) (2025-09-28T17:58:59Z) - Bidirectional Sparse Attention for Faster Video Diffusion Training [14.523882232476092]
ビデオ拡散トランスフォーマー(DiT)モデルは、生成品質は優れているが、高解像度の長期ビデオを生成する際に大きな計算ボトルネックにぶつかる。
本稿では,2方向スパースアテンション(BSA)フレームワークを提案する。このフレームワークは,クエリとキー-バリューのペアを動的に3Dフルアテンション内に分散させる。
BSAは長いシーケンスにわたるDiTトレーニングを著しく加速し、FLOPを最大20倍に減らし、17.79倍のアテンショントレーニングを達成した。
論文 参考訳(メタデータ) (2025-09-01T03:16:52Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。