論文の概要: Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation
- arxiv url: http://arxiv.org/abs/2409.12532v1
- Date: Thu, 19 Sep 2024 07:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:30:28.487920
- Title: Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation
- Title(参考訳): Denoising Reuse: 効率的なビデオ遅延生成のためのフレーム間運動一貫性の爆発
- Authors: Chenyu Wang, Shuo Yan, Yixuan Chen, Yujiang Wang, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Robert P. Dick, Qin Lv, Fan Yang, Tun Lu, Ning Gu, Li Shang,
- Abstract要約: 本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。
初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。
Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
- 参考スコア(独自算出の注目度): 36.098738197088124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation using diffusion-based models is constrained by high computational costs due to the frame-wise iterative diffusion process. This work presents a Diffusion Reuse MOtion (Dr. Mo) network to accelerate latent video generation. Our key discovery is that coarse-grained noises in earlier denoising steps have demonstrated high motion consistency across consecutive video frames. Following this observation, Dr. Mo propagates those coarse-grained noises onto the next frame by incorporating carefully designed, lightweight inter-frame motions, eliminating massive computational redundancy in frame-wise diffusion models. The more sensitive and fine-grained noises are still acquired via later denoising steps, which can be essential to retain visual qualities. As such, deciding which intermediate steps should switch from motion-based propagations to denoising can be a crucial problem and a key tradeoff between efficiency and quality. Dr. Mo employs a meta-network named Denoising Step Selector (DSS) to dynamically determine desirable intermediate steps across video frames. Extensive evaluations on video generation and editing tasks have shown that Dr. Mo can substantially accelerate diffusion models in video tasks with improved visual qualities.
- Abstract(参考訳): 拡散モデルを用いたビデオ生成は,フレームワイド反復拡散プロセスにより,高い計算コストで制約される。
本研究は、遅延ビデオ生成を高速化する拡散再利用モード(Dr. Mo)ネットワークを提案する。
私たちのキーとなる発見は、初期のデノナイジングステップにおける粗いきめのノイズが、連続したビデオフレーム間で高い動きの一貫性を示したことです。
この観察の後、Dr. Moはフレーム間の動きを慎重に設計し、フレーム単位の拡散モデルにおける膨大な計算冗長性を排除し、これらの粗粒のノイズを次のフレームに伝播させる。
より感度が高くきめ細かなノイズは、視覚的品質を維持するために不可欠である後続のデノナイジングステップによってまだ取得されている。
したがって、どの中間ステップを動きに基づく伝搬から denoising に切り替えるべきかを判断することは重要な問題であり、効率と品質の主なトレードオフとなる。
モ博士は、ビデオフレーム間の望ましい中間ステップを動的に決定するために、Denoising Step Selector(DSS)というメタネットワークを使用している。
映像生成および編集タスクに関する広範囲な評価の結果,Mo博士は映像品質の向上により,映像タスクにおける拡散モデルを大幅に加速できることがわかった。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [94.24861019513462]
TRIPは画像間拡散パラダイムの新しいレシピである。
静的画像から派生した画像ノイズをピボットして、フレーム間の関係推論を共同でトリガーする。
WebVid-10M、DTDB、MSR-VTTデータセットに関する大規模な実験は、TRIPの有効性を示している。
論文 参考訳(メタデータ) (2024-03-25T17:59:40Z) - EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering
within Transformer [30.470336098766765]
ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破ることを目的としている。
本稿では,静的場適応型復調を実現するための新しい動的フィルタリング手法を提案する。
我々は、ユーラーモーマーがユーレリア視点からより堅牢なビデオモーション倍率を達成するための広範な実験を実証する。
論文 参考訳(メタデータ) (2023-12-07T09:10:16Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。