論文の概要: VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.12267v1
- Date: Tue, 21 Jan 2025 16:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:10.527714
- Title: VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models
- Title(参考訳): VipDiff: トレーニング不要なデノイング拡散モデルによるコヒーレント・ディヴァースビデオインペインティングを目指して
- Authors: Chaohao Xie, Kai Han, Kwan-Yee K. Wong,
- Abstract要約: VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。
この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
- 参考スコア(独自算出の注目度): 21.584843961386888
- License:
- Abstract: Recent video inpainting methods have achieved encouraging improvements by leveraging optical flow to guide pixel propagation from reference frames either in the image space or feature space. However, they would produce severe artifacts in the mask center when the masked area is too large and no pixel correspondences can be found for the center. Recently, diffusion models have demonstrated impressive performance in generating diverse and high-quality images, and have been exploited in a number of works for image inpainting. These methods, however, cannot be applied directly to videos to produce temporal-coherent inpainting results. In this paper, we propose a training-free framework, named VipDiff, for conditioning diffusion model on the reverse diffusion process to produce temporal-coherent inpainting results without requiring any training data or fine-tuning the pre-trained diffusion models. VipDiff takes optical flow as guidance to extract valid pixels from reference frames to serve as constraints in optimizing the randomly sampled Gaussian noise, and uses the generated results for further pixel propagation and conditional generation. VipDiff also allows for generating diverse video inpainting results over different sampled noise. Experiments demonstrate that VipDiff can largely outperform state-of-the-art video inpainting methods in terms of both spatial-temporal coherence and fidelity.
- Abstract(参考訳): 画像空間や特徴空間の参照フレームから画素伝搬を誘導するために光フローを活用することで,近年の映像塗装技術は向上している。
しかし、仮面面積が大きすぎて中心にピクセルの対応が見つからない場合、仮面中心に深刻な人工物が生じる。
近年、拡散モデルは多彩で高品質な画像の生成において顕著な性能を示し、画像インペイントのために多くの作品に利用されてきた。
しかし、これらの手法は、時間的コヒーレントな塗装結果を生成するためにビデオに直接適用することはできない。
本稿では,逆拡散過程に拡散モデルを適用して,トレーニングデータや事前学習した拡散モデルを微調整することなく,時間的コヒーレントな塗装結果を生成する訓練自由フレームワークであるVipDiffを提案する。
VipDiffは、基準フレームから有効な画素を抽出し、ランダムにサンプリングされたガウス雑音を最適化する際の制約として役立ち、生成した結果をさらなるピクセル伝搬と条件生成に利用する。
VipDiffはまた、異なるサンプルノイズに対して多様なビデオインペイント結果を生成することができる。
実験により、VipDiffは、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端のビデオインペイント法を大きく上回ることができることが示された。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文 参考訳(メタデータ) (2023-11-26T17:48:48Z) - Infusion: internal diffusion for inpainting of dynamic textures and complex motion [4.912318087940015]
ビデオの塗装は、ビデオ内の領域を視覚的に説得力のある方法で埋める作業である。
拡散モデルは、画像やビデオを含む複雑なデータ分散をモデル化する際、印象的な結果を示している。
ビデオインペイントの場合,ビデオの自己相似性が高いため,拡散モデルのトレーニングデータは入力ビデオに制限され,満足な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-11-02T08:55:11Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and
Video Denoising [104.59305271099967]
ピクセル集計ネットワークを提示し、画像デノイジングのためのピクセルサンプリングと平均戦略を学びます。
時間空間にまたがるサンプル画素をビデオデノナイズするための画素集約ネットワークを開発した。
本手法は,動的シーンにおける大きな動きに起因する誤認問題を解決することができる。
論文 参考訳(メタデータ) (2021-01-26T13:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。