論文の概要: Temporal Aware Pruning for Efficient Diffusion-based Video Generation
- arxiv url: http://arxiv.org/abs/2605.17837v2
- Date: Wed, 20 May 2026 21:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.87856
- Title: Temporal Aware Pruning for Efficient Diffusion-based Video Generation
- Title(参考訳): 効率的な拡散型映像生成のための時間的アウェアプルーニング
- Authors: Sheng Li, Yang Sui, Junhao Ran, Bo Yuan, Yue Dai, Xulong Tang,
- Abstract要約: 本研究では,効率的な拡散型ビデオ生成のためのトレーニング不要な時間アウェアであるTAPEを提案する。
TAPEは高い視覚的忠実性を維持しつつ、大幅なスピードアップを実現し、トークン削減手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 22.469564305396002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models have recently enabled high-quality video generation with ViT-based architectures, but remain computationally intensive because generation requires attention computation over long spatiotemporal sequences. Token pruning has proven effective for ViTs and VLMs. However, most prior pruning methods are attention-based and operate per frame, failing to ensure the vital temporal coherence across frames in video generation tasks. In practice, naively adopting attention-only pruning causes noticeable degradation due to worsened background consistency, flickering, and reduced image quality. To address this, we propose TAPE, a training-free Temporal Aware Pruning for Efficient diffusion-based video generation. TAPE (i) applies temporal smoothing to align token-importance across adjacent frames and suppress selection jitter; and (ii) performs token reselection in selected layers to align token pruning with layers' diverse semantic focus and avoid error accumulation in specific areas; it also (iii) adopt a timestep-level budget scheduling that prunes aggressively at early noisy steps and relaxes pruning during fidelity-critical refinement. The experimental results show that TAPE delivers significant speedups while preserving high visual fidelity, outperforming prior token reduction approaches.
- Abstract(参考訳): ビデオ拡散モデルは近年、VTベースのアーキテクチャで高品質なビデオ生成を実現しているが、長時間の時空間列上での注意計算を必要とするため、計算集約性は保たれている。
トケンプルーニングは ViT や VLM に有効であることが証明されている。
しかし、従来のプルーニング手法のほとんどは注意に基づくものであり、ビデオ生成タスクにおいてフレーム間の重要な時間的コヒーレンスを確保するのに失敗している。
実際には、注意のみのプルーニングの採用は、背景の一貫性の悪化、点滅、画質の低下による顕著な劣化を引き起こす。
そこで本研究では,効率の良い拡散型ビデオ生成のためのトレーニング不要な時間認識プルーニングであるTAPEを提案する。
テープ
(i)隣接するフレーム間でトークンの重要性を整合させ、選択ジッタを抑えるために時間的平滑化を適用する。
(二)選択した層においてトークン再選択を行い、トークンプルーニングを多彩なセマンティックフォーカスと整合させ、特定の領域におけるエラーの蓄積を回避する。
三 騒音の早い段階で積極的に振る舞い、忠実度クリティカルな精錬の際の刈り込みを緩和するタイムステップレベルの予算スケジューリングを採用すること。
実験結果から,TAPEは高い視力を維持しながら大幅なスピードアップを実現し,トークン低減手法よりも優れていた。
関連論文リスト
- Stream-T1: Test-Time Scaling for Streaming Video Generation [30.575612184373025]
Stream-T1は、ストリーミングビデオ生成専用の総合的なテスト時間スケーリングフレームワークである。
5sと30sの総合的なビデオベンチマークで評価すると、Stream-T1は大きな優位性を示している。
論文 参考訳(メタデータ) (2026-05-06T03:40:05Z) - Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation [9.132288507881592]
ビデオ拡散変換器は高忠実度ビデオ生成に革命をもたらしたが、自己注意の膨大な計算負担に悩まされている。
PASA(Precision-Allocated Sparse Attention)は,高効率かつ時間的にスムーズなビデオ生成を目的としたトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2026-04-14T02:51:52Z) - Streaming Autoregressive Video Generation via Diagonal Distillation [50.13573884115673]
自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。
ビデオチャンクとデノイングステップの時間的情報を活用するために,ダイアゴナル蒸留を提案する。
本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
論文 参考訳(メタデータ) (2026-03-10T10:45:24Z) - All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations [102.94052335735326]
All-in-one画像復元は、単一のモデルを用いて、さまざまな未知の劣化からクリーンなイメージを復元することを目的としている。
既存のアプローチは主に、現実世界の劣化過程に自然に存在する時間的連続性を見越して、フレームワイドの劣化変動に焦点を当てている。
Smoothly Evolving Unknown Degradations (SEUD) のシナリオでは、アクティブな劣化セットと劣化強度の両方が時間とともに連続的に変化する。
論文 参考訳(メタデータ) (2026-01-02T02:20:57Z) - LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文 参考訳(メタデータ) (2025-11-14T08:26:55Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Temporal Residual Guided Diffusion Framework for Event-Driven Video Reconstruction [23.493813870675197]
イベントベースのビデオ再構成は、ハイダイナミックレンジや高速モーションキャプチャ機能など、そのアドバンテージから注目を集めている。
現在の方法では、連続したイベントフローからの時間情報の抽出が優先され、シーン内の低周波テクスチャの特徴に過度に強調される。
本稿では,時間的・周波数的イベント前処理を効果的に活用する新しい手法である時間的残留ガイド拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T11:48:57Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。