論文の概要: LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2510.08318v1
- Date: Thu, 09 Oct 2025 15:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.15487
- Title: LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation
- Title(参考訳): LinVideo: 効率的なビデオ生成におけるO(n)注意のための訓練後フレームワーク
- Authors: Yushi Huang, Xingtong Ge, Ruihao Gong, Chengtao Lv, Jun Zhang,
- Abstract要約: 対象とする自己注意モジュール数を線形注意で置き換える,効率的なデータフリーポストトレーニングフレームワークを提案する。
生成品質を保ちながら1.25-2.00xの高速化を実現し、4段階蒸留モデルにより、視覚的品質低下を最小限に抑えた15.92倍の遅延低減を実現した。
- 参考スコア(独自算出の注目度): 19.69237169218592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video diffusion models (DMs) have enabled high-quality video synthesis. However, their computation costs scale quadratically with sequence length because self-attention has quadratic complexity. While linear attention lowers the cost, fully replacing quadratic attention requires expensive pretraining due to the limited expressiveness of linear attention and the complexity of spatiotemporal modeling in video generation. In this paper, we present LinVideo, an efficient data-free post-training framework that replaces a target number of self-attention modules with linear attention while preserving the original model's performance. First, we observe a significant disparity in the replaceability of different layers. Instead of manual or heuristic choices, we frame layer selection as a binary classification problem and propose selective transfer, which automatically and progressively converts layers to linear attention with minimal performance impact. Additionally, to overcome the ineffectiveness and inefficiency of existing objectives for this transfer process, we introduce an anytime distribution matching (ADM) objective that aligns the distributions of samples across any timestep along the sampling trajectory. This objective is efficient and recovers model performance. Extensive experiments show that our method achieves a 1.25-2.00x speedup while preserving generation quality, and our 4-step distilled model further delivers a 15.92x latency reduction with minimal visual quality drop.
- Abstract(参考訳): ビデオ拡散モデル(DM)は高品質なビデオ合成を可能にしている。
しかし、その計算コストは、自己意図が二次的な複雑さを持つため、シーケンス長と2次的にスケールする。
リニアアテンションはコストを下げるが、ビデオ生成におけるリニアアテンションの表現力の制限と時空間モデリングの複雑さのため、二次アテンションを完全に置き換えるには高価なプレトレーニングが必要である。
本稿では,LinVideoについて述べる。LinVideoは,本来のモデルの性能を維持しつつ,対象とする自己注意モジュールの数を線形に置き換える,効率的なデータフリーポストトレーニングフレームワークである。
まず、異なるレイヤの置換性において、大きな相違が観察される。
手動またはヒューリスティックな選択の代わりに、我々は二項分類問題として層選択をフレーム化し、選択的転送を提案し、これにより、性能への影響を最小限に抑えながら、自動的に段階的に層を線形の注意に変換する。
さらに, この移動過程において既存の目的の非効率性と非効率性を克服するために, サンプリング軌道に沿った任意の時間経過におけるサンプルの分布を整列する任意の時間分布マッチング (ADM) の目的を導入する。
この目的は効率的で、モデル性能を回復する。
大規模な実験により, 生成品質を保ちながら1.25-2.00xの高速化を実現し, さらに4段階蒸留モデルにより, 視覚的品質低下を最小限に抑えた15.92倍の遅延低減を実現した。
関連論文リスト
- Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer [13.545000689565732]
トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。
テキストリニアライズおよびテキストリニアライズのための効率的なフレームワークであるtextitAttention Surgeryを導入する。
論文 参考訳(メタデータ) (2025-09-29T15:09:51Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文 参考訳(メタデータ) (2022-10-13T17:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。