Fugu-MT 論文翻訳(概要): Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

論文の概要: Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

arxiv url: http://arxiv.org/abs/2410.16152v2
Date: Tue, 22 Oct 2024 03:37:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.54894
Title: Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models
Title（参考訳）: ワープ拡散:画像拡散モデルを用いたビデオ逆問題の解法
Authors: Giannis Daras, Weili Nie, Karsten Kreis, Alex Dimakis, Morteza Mardani, Nikola Borislavov Kovachki, Arash Vahdat,
Abstract要約: 我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
参考スコア（独自算出の注目度）: 56.691967706131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Using image models naively for solving inverse video problems often suffers from flickering, texture-sticking, and temporal inconsistency in generated videos. To tackle these problems, in this paper, we view frames as continuous functions in the 2D space, and videos as a sequence of continuous warping transformations between different frames. This perspective allows us to train function space diffusion models only on images and utilize them to solve temporally correlated inverse problems. The function space diffusion models need to be equivariant with respect to the underlying spatial transformations. To ensure temporal consistency, we introduce a simple post-hoc test-time guidance towards (self)-equivariant solutions. Our method allows us to deploy state-of-the-art latent diffusion models such as Stable Diffusion XL to solve video inverse problems. We demonstrate the effectiveness of our method for video inpainting and $8\times$ video super-resolution, outperforming existing techniques based on noise transformations. We provide generated video results: https://giannisdaras.github.io/warped_diffusion.github.io/.
Abstract（参考訳）: 逆動画の問題を解決するために、画像モデルを用いた場合、しばしばフリックリング、テクスチャスティック、時間的不整合に悩まされる。本稿では,これらの問題に対処するため,フレームを2次元空間における連続関数とみなし,ビデオを異なるフレーム間の連続的なワープ変換の列とみなす。この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。関数空間拡散モデルは、下層の空間変換に関して同変である必要がある。時間的整合性を確保するため、自己同変解に対する簡単なポストホックテスト時間ガイダンスを導入する。本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。提案手法の有効性を実演し, ノイズ変換に基づく既存手法よりも優れた映像高分解能と8-times$ビデオ高分解能について述べる。生成されたビデオ結果:https://giannisdaras.github.io/warped_diffusion.github.io/。

関連論文リスト

STeP: A General and Scalable Framework for Solving Video Inverse Problems with Spatiotemporal Diffusion Priors [27.45644471304381]
本研究では,拡散モデルを用いたビデオにおける一般的な逆問題の解法について検討する。ビデオ逆問題を解決するための汎用的でスケーラブルなフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T08:24:26Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文参考訳（メタデータ） (2024-09-04T09:48:27Z)
Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。 $mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文参考訳（メタデータ） (2024-07-31T09:36:58Z)
Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-25T17:59:26Z)
LatentMan: Generating Consistent Animated Characters using Image Diffusion Models [44.18315132571804]
テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。
論文参考訳（メタデータ） (2023-12-12T10:07:37Z)
Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文参考訳（メタデータ） (2023-12-07T16:26:23Z)
Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。 P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文参考訳（メタデータ） (2023-10-02T11:31:48Z)
Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文参考訳（メタデータ） (2023-09-05T10:52:21Z)
A Variational Perspective on Solving Inverse Problems with Diffusion Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。そこで我々は,真の後続分布を近似する設計手法を提案する。
論文参考訳（メタデータ） (2023-05-07T23:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。