Fugu-MT 論文翻訳(概要): Training-free and Adaptive Sparse Attention for Efficient Long Video Generation

論文の概要: Training-free and Adaptive Sparse Attention for Efficient Long Video Generation

arxiv url: http://arxiv.org/abs/2502.21079v1
Date: Fri, 28 Feb 2025 14:11:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.946111
Title: Training-free and Adaptive Sparse Attention for Efficient Long Video Generation
Title（参考訳）: 高速ビデオ生成のためのトレーニング不要で適応的なスパースアテンション
Authors: Yifei Xia, Suhan Ling, Fangcheng Fu, Yujie Wang, Huixia Li, Xuefeng Xiao, Bin Cui,
Abstract要約: Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。 AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
参考スコア（独自算出の注目度）: 31.615453637053793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating high-fidelity long videos with Diffusion Transformers (DiTs) is often hindered by significant latency, primarily due to the computational demands of attention mechanisms. For instance, generating an 8-second 720p video (110K tokens) with HunyuanVideo takes about 600 PFLOPs, with around 500 PFLOPs consumed by attention computations. To address this issue, we propose AdaSpa, the first Dynamic Pattern and Online Precise Search sparse attention method. Firstly, to realize the Dynamic Pattern, we introduce a blockified pattern to efficiently capture the hierarchical sparsity inherent in DiTs. This is based on our observation that sparse characteristics of DiTs exhibit hierarchical and blockified structures between and within different modalities. This blockified approach significantly reduces the complexity of attention computation while maintaining high fidelity in the generated videos. Secondly, to enable Online Precise Search, we propose the Fused LSE-Cached Search with Head-adaptive Hierarchical Block Sparse Attention. This method is motivated by our finding that DiTs' sparse pattern and LSE vary w.r.t. inputs, layers, and heads, but remain invariant across denoising steps. By leveraging this invariance across denoising steps, it adapts to the dynamic nature of DiTs and allows for precise, real-time identification of sparse indices with minimal overhead. AdaSpa is implemented as an adaptive, plug-and-play solution and can be integrated seamlessly with existing DiTs, requiring neither additional fine-tuning nor a dataset-dependent profiling. Extensive experiments validate that AdaSpa delivers substantial acceleration across various models while preserving video quality, establishing itself as a robust and scalable approach to efficient video generation.
Abstract（参考訳）: Diffusion Transformers (DiT) を用いた高精細長ビデオの生成は、主に注意機構の計算要求のため、大きな遅延によって妨げられることが多い。例えば、HunyuanVideoで8秒の720pビデオ(110Kトークン)を生成するには600 PFLOPが必要で、約500 PFLOPは注意計算によって消費される。この問題に対処するために,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。まず、動的パターンを実現するために、ブロックされたパターンを導入し、DiTに固有の階層的空間を効率的にキャプチャする。これは,DiTsのスパース特性が,異なるモード間の階層構造とブロック構造を示すことに基づく。このブロック化アプローチは、生成したビデオの忠実度を維持しながら、注意計算の複雑さを著しく低減する。第二に,オンライン精密検索を実現するために,頭部適応型階層的ブロックスパースアテンションを用いた融合LSEキャッシュ検索を提案する。この方法は、DiTsのスパースパターンとLSEがw.r.t.インプット、層、ヘッドによって異なるが、デノナイジングステップで不変であることを発見したことで動機づけられる。この不変性を活用することで、DiTの動的性質に適応し、最小限のオーバーヘッドでスパース指標を正確にリアルタイムに識別することができる。 AdaSpaは適応的なプラグイン・アンド・プレイソリューションとして実装されており、既存のDiTとシームレスに統合できる。大規模な実験により、AdaSpaはビデオ品質を保ちながら様々なモデルに対して大幅な加速を提供し、効率的なビデオ生成に対する堅牢でスケーラブルなアプローチとして確立した。

関連論文リスト

Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks [21.710127132217526]
本稿では,ビデオ・インタフェース・ネットワーク (VIN) と呼ばれる新しいパラダイムを導入し,ビデオ・チャンクの並列推論を可能にする抽象化モジュールでDiTを拡張した。 VINは局所チャンクのノイズの多い入力と符号化された表現からグローバルセマンティクスをエンコードする。フルジェネレーションよりも25～40%少ないFLOPを用いて,最先端動作のスムーズさを実現する。
論文参考訳（メタデータ） (2025-03-21T21:13:02Z)
Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。 DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文参考訳（メタデータ） (2024-11-26T17:28:10Z)
Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文参考訳（メタデータ） (2024-11-26T13:58:24Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文参考訳（メタデータ） (2021-04-08T05:46:38Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)
Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。データから最適なスケールのカーネルを学習することを提案する。固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文参考訳（メタデータ） (2020-07-22T14:22:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。