論文の概要: VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.00156v2
- Date: Tue, 03 Dec 2024 07:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:57.052437
- Title: VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models
- Title(参考訳): VISION-XL:潜画像拡散モデルを用いた高精細ビデオ逆問題解法
- Authors: Taesung Kwon, Jong Chul Ye,
- Abstract要約: 本稿では,遅延画像拡散モデルを用いて高精細ビデオ逆問題を解決するためのフレームワークを提案する。
提案手法は遅延空間拡散モデルを用いて,映像品質と解像度の向上を実現する。
従来の手法とは異なり,本手法では複数のアスペクト比をサポートし,1つのGPU上で2.5分以内でHD解像度の再構成を行う。
- 参考スコア(独自算出の注目度): 58.464465016269614
- License:
- Abstract: In this paper, we propose a novel framework for solving high-definition video inverse problems using latent image diffusion models. Building on recent advancements in spatio-temporal optimization for video inverse problems using image diffusion models, our approach leverages latent-space diffusion models to achieve enhanced video quality and resolution. To address the high computational demands of processing high-resolution frames, we introduce a pseudo-batch consistent sampling strategy, allowing efficient operation on a single GPU. Additionally, to improve temporal consistency, we present batch-consistent inversion, an initialization technique that incorporates informative latents from the measurement frame. By integrating with SDXL, our framework achieves state-of-the-art video reconstruction across a wide range of spatio-temporal inverse problems, including complex combinations of frame averaging and various spatial degradations, such as deblurring, super-resolution, and inpainting. Unlike previous methods, our approach supports multiple aspect ratios (landscape, vertical, and square) and delivers HD-resolution reconstructions (exceeding 1280x720) in under 2.5 minutes on a single NVIDIA 4090 GPU.
- Abstract(参考訳): 本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
画像拡散モデルを用いたビデオ逆問題に対する時空間最適化の最近の進歩を基盤として,遅延空間拡散モデルを用いて高画質化と解像度化を実現している。
高精細フレーム処理における高い計算要求に対処するために,1つのGPU上での効率的な演算を可能にする擬似バッチ一貫したサンプリング戦略を導入する。
さらに、時間的整合性を改善するために、計測フレームから情報伝達潜伏剤を組み込んだ初期化手法であるバッチ一貫性逆変換を提案する。
SDXLと統合することにより,フレーム平均化の複雑な組み合わせや,デブロアリング,超解像,インパインティングといった様々な空間劣化を含む,幅広い時空間的逆問題に対して,最先端のビデオ再構成を実現する。
従来の手法とは異なり,本手法では複数のアスペクト比(ランドスケープ,垂直,正方形)をサポートし,NVIDIA 4090 GPUで2.5分未満でHD解像度の再構成(1280x720)を行う。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Robust High-Resolution Video Matting with Temporal Guidance [14.9739044990367]
我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。
提案手法は従来手法よりもはるかに軽量であり,Nvidia GTX 1080Ti GPU上で4Kを76FPSで,HDを104FPSで処理することができる。
論文 参考訳(メタデータ) (2021-08-25T23:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。