論文の概要: Accelerating Text-to-Video Generation with Calibrated Sparse Attention
- arxiv url: http://arxiv.org/abs/2603.05503v1
- Date: Thu, 05 Mar 2026 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.393462
- Title: Accelerating Text-to-Video Generation with Calibrated Sparse Attention
- Title(参考訳): キャリブレーションされたスパースアテンションによるテキスト・ビデオ生成の高速化
- Authors: Shai Yehezkel, Shahar Yadin, Noam Elata, Yaron Ostrovsky-Berman, Bahjat Kawar,
- Abstract要約: CalibAttは、キャリブレーションされたスパースアテンションによるビデオ生成を加速するトレーニング不要の手法である。
Wan 2.1 14B, 1 および数段階の蒸留モデルに対する様々な解像度での実験により、CalibAtt は最大 1.58 倍のエンドツーエンドのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 10.336091360429362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent diffusion models enable high-quality video generation, but suffer from slow runtimes. The large transformer-based backbones used in these models are bottlenecked by spatiotemporal attention. In this paper, we identify that a significant fraction of token-to-token connections consistently yield negligible scores across various inputs, and their patterns often repeat across queries. Thus, the attention computation in these cases can be skipped with little to no effect on the result. This observation continues to hold for connections among local token blocks. Motivated by this, we introduce CalibAtt, a training-free method that accelerates video generation via calibrated sparse attention. CalibAtt performs an offline calibration pass that identifies block-level sparsity and repetition patterns that are stable across inputs, and compiles these patterns into optimized attention operations for each layer, head, and diffusion timestep. At inference time, we compute the selected input-dependent connections densely, and skip the unselected ones in a hardware-efficient manner. Extensive experiments on Wan 2.1 14B, Mochi 1, and few-step distilled models at various resolutions show that CalibAtt achieves up to 1.58x end-to-end speedup, outperforming existing training-free methods while maintaining video generation quality and text-video alignment.
- Abstract(参考訳): 最近の拡散モデルは高品質のビデオ生成を可能にするが、遅いランタイムに悩まされている。
これらのモデルで使用される大きなトランスフォーマーベースのバックボーンは時空間的注意によってボトルネックとなる。
本稿では,トークン・ツー・トークン・コネクションのかなりの割合が,様々な入力に対して無視可能なスコアを連続的に生成し,そのパターンがクエリ間で繰り返されることを示す。
したがって、これらのケースにおける注意計算は、結果にほとんど、あるいは全く影響を与えずにスキップすることができる。
この観察は、ローカルトークンブロック間の接続を保ち続けている。
そこで本研究では,キャリブレーションによる映像生成を高速化するトレーニングフリーな手法であるCalibAttを紹介する。
CalibAttはオフラインのキャリブレーションパスを実行し、各層、ヘッド、拡散時間ステップに対して、各パターンを最適化されたアテンション操作にコンパイルする。
推論時に選択した入力依存接続を密に計算し、ハードウェア効率のよい方法で未選択接続をスキップする。
Wan 2.1 14B、望月1号、および数段蒸留モデルに対する大規模な実験により、CalibAttは最大1.58倍のエンドツーエンドのスピードアップを実現し、ビデオ生成品質とテキスト・ビデオアライメントを維持しながら、既存のトレーニング不要の手法より優れていた。
関連論文リスト
- Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration [58.19554276924402]
スペクトル拡散特徴予測器(Spectrum)を提案する。
我々はFLUX.1で4.79$times$スピードアップ、Wan2.1-14Bで4.67$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-02T08:59:11Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - Flow Intelligence: Robust Feature Matching via Temporal Signature Correlation [12.239059174851654]
フローインテリジェンス(Flow Intelligence)は、時間的動きのパターンのみに焦点を当てたパラダイムシフトのアプローチである。
本手法は,連続するフレームにまたがる画素ブロックから動きのシグネチャを抽出し,ビデオ間の時間的動きのシグネチャを抽出する。
外観よりも動きを活用することで、フローインテリジェンスは多様な環境で堅牢でリアルタイムなビデオ特徴マッチングを可能にする。
論文 参考訳(メタデータ) (2025-04-16T10:25:20Z) - Training-free Diffusion Acceleration with Bottleneck Sampling [37.9135035506567]
Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。
画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文 参考訳(メタデータ) (2025-03-24T17:59:02Z) - Fast Autoregressive Video Generation with Diagonal Decoding [34.90521536645348]
DiagD (Diagonal Decoding) は、自己回帰事前学習モデルのためのトレーニング不要な推論高速化アルゴリズムである。
本手法は,空間的時間的トークングリッド内の対角経路に沿ってトークンを生成し,各フレーム内で並列デコードを可能にする。
DiagDは、単純でシーケンシャルなデコーディングに比べて最大10倍のスピードアップを達成すると同時に、同等の視覚的忠実さを維持している。
論文 参考訳(メタデータ) (2025-03-18T09:42:55Z) - Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。
本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。
複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。
提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Temporally stable video segmentation without video annotations [6.184270985214255]
静止画像分割モデルを教師なしの方法でビデオに適応させる手法を提案する。
整合性尺度がヒトの判断とよく相関していることを検証する。
生成したセグメンテーションビデオの精度の低下を最小限に抑えて改善を観察する。
論文 参考訳(メタデータ) (2021-10-17T18:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。