論文の概要: Training-free Latent Inter-Frame Pruning with Attention Recovery
- arxiv url: http://arxiv.org/abs/2603.05811v1
- Date: Fri, 06 Mar 2026 01:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.884033
- Title: Training-free Latent Inter-Frame Pruning with Attention Recovery
- Title(参考訳): 注意回復を伴う無トレーニングラテントフレームプルーニング
- Authors: Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu,
- Abstract要約: 現在のビデオ生成モデルは高い計算遅延に悩まされており、リアルタイムアプリケーションは非常にコストがかかる。
本稿では,重複パッチの検出と再計算を行うLIPAR(Latent Inter-frame Pruning with Attention Recovery)フレームワークを提案する。
NVIDIA A6000で平均12.2FPSを達成した場合,ビデオ編集のスループットを$1.45 times$で向上させる。
- 参考スコア(独自算出の注目度): 50.889009147480856
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by $1.45\times$, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.
- Abstract(参考訳): 現在のビデオ生成モデルは高い計算遅延に悩まされており、リアルタイムアプリケーションは非常にコストがかかる。
本稿では,ビデオ潜伏パッチに固有の時間的冗長性を利用して,この制限に対処する。
この目的のために、複製された潜在パッチを検知・スキップするLIPAR(Latent Inter-frame Pruning with Attention Recovery)フレームワークを提案する。
さらに,明細トークンの注意値を近似する新しい注意回復機構を導入し,明細トークンの点検による視覚的アーチファクトの除去を行う。
提案手法は、NVIDIA A6000で平均12.2FPSを達成した場合、ビデオ編集のスループットを1.45FPS向上させる。
提案手法は生成品質を損なうことなく,モデルとシームレスに統合できる。
提案手法は,従来の圧縮アルゴリズムと現代的な生成パイプラインのギャップを効果的に埋めるものである。
関連論文リスト
- Bridging Robustness and Efficiency: Real-Time Low-Light Enhancement via Attention U-Net GAN [0.0]
エッジ展開可能な速度で生成レベルのテクスチャを復元するハイブリッドな注意型U-Net GANを提案する。
提案手法は,効率的なモデルのうち,クラス別LPIPSスコアが0.112であることを示す。
これは遅延拡散モデルよりも40倍のスピードアップを示し、我々のアプローチはほぼリアルタイムなアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-10T10:39:22Z) - Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。