論文の概要: Flow-Guided Diffusion for Video Inpainting
- arxiv url: http://arxiv.org/abs/2311.15368v2
- Date: Thu, 23 Jan 2025 03:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:31.331956
- Title: Flow-Guided Diffusion for Video Inpainting
- Title(参考訳): ビデオインペインティングのためのフローガイド拡散
- Authors: Bohai Gu, Yongsheng Yu, Heng Fan, Libo Zhang,
- Abstract要約: ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
- 参考スコア(独自算出の注目度): 14.168532703086672
- License:
- Abstract: Video inpainting has been challenged by complex scenarios like large movements and low-light conditions. Current methods, including emerging diffusion models, face limitations in quality and efficiency. This paper introduces the Flow-Guided Diffusion model for Video Inpainting (FGDVI), a novel approach that significantly enhances temporal consistency and inpainting quality via reusing an off-the-shelf image generation diffusion model. We employ optical flow for precise one-step latent propagation and introduces a model-agnostic flow-guided latent interpolation technique. This technique expedites denoising, seamlessly integrating with any Video Diffusion Model (VDM) without additional training. Our FGDVI demonstrates a remarkable 10% improvement in flow warping error E_warp over existing state-of-the-art methods. Our comprehensive experiments validate superior performance of FGDVI, offering a promising direction for advanced video inpainting. The code and detailed results will be publicly available in https://github.com/NevSNev/FGDVI.
- Abstract(参考訳): ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では,FGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
我々は1ステップの遅延伝搬を正確に行うために光流を用い、モデルに依存しない流れ誘導潜時補間法を導入する。
このテクニックは、任意のビデオ拡散モデル(VDM)とシームレスに統合し、追加のトレーニングなしでデノナイズする。
我々のFGDVIは、既存の最先端手法に比べて、フローワープ誤差E_warpが10%向上したことを示す。
包括的実験により,FGDVIの優れた性能が評価され,高度な映像のインペイントに有望な方向性が得られた。
コードと詳細な結果はhttps://github.com/NevSNev/FGDVI.comで公開されている。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models [21.584843961386888]
VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。
この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
論文 参考訳(メタデータ) (2025-01-21T16:39:09Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - Advanced Video Inpainting Using Optical Flow-Guided Efficient Diffusion [13.649604333753727]
本稿では、FloEDと呼ばれる光フロー誘導高効率拡散を用いた高度な映像インペイントフレームワークを提案する。
FloEDはデュアルブランチアーキテクチャを採用しており、フローブランチが最初に破損したフローを復元し、マルチスケールフローアダプタがメインの塗装ブランチにモーションガイダンスを提供する。
バックグラウンド復元とオブジェクト除去の両タスクの実験は、FloEDがパフォーマンスと効率の両方の観点から最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-12-01T15:45:26Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。