Fugu-MT 論文翻訳(概要): Latent Inter-Frame Pruning: A Training-Free Method Bridging Traditional Video Compression and Modern Diffusion Transformers for Efficient Generation

論文の概要: Latent Inter-Frame Pruning: A Training-Free Method Bridging Traditional Video Compression and Modern Diffusion Transformers for Efficient Generation

arxiv url: http://arxiv.org/abs/2604.23858v1
Date: Sun, 26 Apr 2026 20:03:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.59604
Title: Latent Inter-Frame Pruning: A Training-Free Method Bridging Traditional Video Compression and Modern Diffusion Transformers for Efficient Generation
Title（参考訳）: ラテントフレームプルーニング: 映像圧縮と現代拡散変換器を併用した学習自由化手法
Authors: Dennis Menn, Chih-Hsien Chou,
Abstract要約: ビデオ生成は、リアルなビデオを生成することができるが、計算コストが高く、遅く、リアルタイムのアプリケーションを禁止している。オートエンコーダによって符号化されたビデオ潜伏子は、時間軸に沿った冗長性を含む。本稿では、複製されたラテントパッチをプリキュア(再計算)するためのラテントフレーム間プルーニングフレームワークを提案し、計算負担を低減し、スループットを向上する。
参考スコア（独自算出の注目度）: 2.639628765667673
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video generation, while capable of generating realistic videos, is computationally expensive and slow, prohibiting real-time applications. In this paper, we observe that video latents encoded via an autoencoder under the Latent Diffusion Model (LDM) framework contain redundancy along the temporal axis. Analogous to how traditional video compression algorithms avoid transmitting redundant frame data, we propose the Latent Inter-frame Pruning framework to prune (skip the re-computation of) duplicated latent patches, thereby reducing computational burden and increasing throughput. However, direct pruning results in visual artifacts due to the discrepancy between full-sequence training and pruned inference. To resolve these artifacts, we propose an Attention Recovery mechanism to bridge the train-inference gap. With our proposed method, we increase video editing throughput by 1.44$\times$, achieving 12.44 FPS on an NVIDIA RTX 6000 while maintaining video quality. We hope our work inspires further research into integrating traditional video compression methods with modern video generation pipelines. This work is a preliminary work on Training-free Latent Inter-Frame Pruning with Attention Recovery.
Abstract（参考訳）: ビデオ生成は、リアルなビデオを生成することができるが、計算コストが高く、遅く、リアルタイムのアプリケーションを禁止している。本稿では,LDM(Latent Diffusion Model)フレームワークのオートエンコーダによって符号化されたビデオラテントが,時間軸に沿った冗長性を含むことを観察する。従来のビデオ圧縮アルゴリズムが冗長なフレームデータの転送を回避しているのと類似して、複製されたラテントパッチを(再計算する)プルーンするラテントフレーム間プルーニングフレームワークを提案し、計算負担を低減しスループットを増大させる。しかし、直接プルーニングは、フルシーケンストレーニングとプルーニング推論の相違による視覚的アーティファクトをもたらす。これらの成果を解決するために,列車の干渉ギャップを橋渡しするアテンション・リカバリ機構を提案する。提案手法により,映像編集のスループットを1.44$\times$で向上し,NVIDIA RTX 6000で12.44 FPSを実現し,画質の維持を図る。私たちの研究は、従来のビデオ圧縮手法を現代的なビデオ生成パイプラインに統合するためのさらなる研究を促すことを願っています。この研究は、注意回復を伴う訓練不要なラテントフレーム・プルーニングに関する予備的な研究である。

関連論文リスト

ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation [33.672422379245766]
本稿では,ChopGradについて紹介する。ChopGradはビデオ復号化のための切り離されたバックプロパゲーション方式で,グローバルな一貫性を維持しつつ,ローカルフレームウインドウへの勾配を制限している。本稿では, この近似の理論的解析を行い, フレーム単位の損失で効率的な微調整を可能にすることを示す。
論文参考訳（メタデータ） (2026-03-18T15:04:57Z)
Training-free Latent Inter-Frame Pruning with Attention Recovery [50.889009147480856]
現在のビデオ生成モデルは高い計算遅延に悩まされており、リアルタイムアプリケーションは非常にコストがかかる。本稿では,重複パッチの検出と再計算を行うLIPAR(Latent Inter-frame Pruning with Attention Recovery)フレームワークを提案する。 NVIDIA A6000で平均12.2FPSを達成した場合,ビデオ編集のスループットを$1.45 times$で向上させる。
論文参考訳（メタデータ） (2026-03-06T01:49:47Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-12-23T18:58:24Z)
SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文参考訳（メタデータ） (2024-12-13T14:50:26Z)
Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文参考訳（メタデータ） (2020-08-20T20:01:59Z)
Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文参考訳（メタデータ） (2020-03-25T09:04:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。