論文の概要: Flow-Guided Diffusion for Video Inpainting
- arxiv url: http://arxiv.org/abs/2311.15368v1
- Date: Sun, 26 Nov 2023 17:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:52:20.049472
- Title: Flow-Guided Diffusion for Video Inpainting
- Title(参考訳): ビデオインペインティングのためのフローガイド拡散
- Authors: Bohai Gu, Yongsheng Yu, Heng Fan, Libo Zhang
- Abstract要約: ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
- 参考スコア(独自算出の注目度): 15.478104117672803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video inpainting has been challenged by complex scenarios like large
movements and low-light conditions. Current methods, including emerging
diffusion models, face limitations in quality and efficiency. This paper
introduces the Flow-Guided Diffusion model for Video Inpainting (FGDVI), a
novel approach that significantly enhances temporal consistency and inpainting
quality via reusing an off-the-shelf image generation diffusion model. We
employ optical flow for precise one-step latent propagation and introduces a
model-agnostic flow-guided latent interpolation technique. This technique
expedites denoising, seamlessly integrating with any Video Diffusion Model
(VDM) without additional training. Our FGDVI demonstrates a remarkable 10%
improvement in flow warping error E_warp over existing state-of-the-art
methods. Our comprehensive experiments validate superior performance of FGDVI,
offering a promising direction for advanced video inpainting. The code and
detailed results will be publicly available in
https://github.com/NevSNev/FGDVI.
- Abstract(参考訳): ビデオインペインティングは、大きな動きや低照度条件といった複雑なシナリオに挑戦されている。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では,本論文で紹介するfgdvi(flow-guided diffusion model for video inpainting)について紹介する。
我々は,1ステップ潜時伝播の高精度化に光フローを用い,モデル非依存な潜時補間手法を導入する。
このテクニックは、追加のトレーニングなしで、任意のビデオ拡散モデル(vdm)とシームレスに統合する。
我々のFGDVIは、既存の最先端手法に比べて、フローワープ誤差E_warpが10%向上したことを示す。
包括的実験によりFGDVIの優れた性能が検証され,高度な映像のインペイントに期待できる方向性が得られた。
コードと詳細な結果はhttps://github.com/nevsnev/fgdviで公開されている。
関連論文リスト
- Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - Text-to-Image Rectified Flow as Plug-and-Play Priors [52.586838532560755]
整流流は、ソースからターゲット分布への線形進行を強制する新しい生成モデルのクラスである。
補正フローアプローチが生成品質と効率を上回り,推論ステップを少なくすることを示した。
また,画像のインバージョンや編集における競合性能も示す。
論文 参考訳(メタデータ) (2024-06-05T14:02:31Z) - Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [44.92712228326116]
ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。
入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。
MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
論文 参考訳(メタデータ) (2024-03-20T16:53:45Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。