論文の概要: Infusion: Internal Diffusion for Video Inpainting
- arxiv url: http://arxiv.org/abs/2311.01090v1
- Date: Thu, 2 Nov 2023 08:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:16:35.609674
- Title: Infusion: Internal Diffusion for Video Inpainting
- Title(参考訳): インフュージョン:ビデオインペインティングのための内部拡散
- Authors: Nicolas Cherel, Andr\'es Almansa, Yann Gousseau, Alasdair Newson
- Abstract要約: 拡散モデルは、画像やビデオを含む複雑なデータ分散をモデル化する際、驚くべき結果を示している。
ビデオインペイントの場合,ビデオの自己類似性が高いため,拡散モデルのトレーニングはインペイントに限定することができる。
われわれはこの手法を「Infusion」と呼んでいる。
- 参考スコア(独自算出の注目度): 4.8201607588546
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video inpainting is the task of filling a desired region in a video in a
visually convincing manner. It is a very challenging task due to the high
dimensionality of the signal and the temporal consistency required for
obtaining convincing results. Recently, diffusion models have shown impressive
results in modeling complex data distributions, including images and videos.
Diffusion models remain nonetheless very expensive to train and perform
inference with, which strongly restrict their application to video. We show
that in the case of video inpainting, thanks to the highly auto-similar nature
of videos, the training of a diffusion model can be restricted to the video to
inpaint and still produce very satisfying results. This leads us to adopt an
internal learning approch, which also allows for a greatly reduced network
size. We call our approach "Infusion": an internal learning algorithm for video
inpainting through diffusion. Due to our frugal network, we are able to propose
the first video inpainting approach based purely on diffusion. Other methods
require supporting elements such as optical flow estimation, which limits their
performance in the case of dynamic textures for example. We introduce a new
method for efficient training and inference of diffusion models in the context
of internal learning. We split the diffusion process into different learning
intervals which greatly simplifies the learning steps. We show qualititative
and quantitative results, demonstrating that our method reaches
state-of-the-art performance, in particular in the case of dynamic backgrounds
and textures.
- Abstract(参考訳): ビデオインペインティングは、映像内の所望の領域を視覚的に説得力のある方法で埋める作業である。
信号の高次元化と説得力のある結果を得るためには時間的一貫性が必要となるため、非常に難しい課題である。
近年、拡散モデルは画像やビデオを含む複雑なデータ分布のモデリングにおいて顕著な結果を示している。
拡散モデルはいまだにトレーニングと推論に非常に高価であり、ビデオへの適用を厳しく制限している。
ビデオインペイントの場合,ビデオの自己類似性が高いため,拡散モデルのトレーニングはビデオに限定してインペイントし,非常に満足な結果が得られることを示す。
これにより、内部学習アプローチを採用することができ、ネットワークサイズを大幅に削減することができます。
我々はこのアプローチを「拡散」と呼び,拡散による映像インペインティングのための内部学習アルゴリズムである。
粗末なネットワークにより,拡散に基づく最初の映像インペインティング手法を提案することができる。
その他の方法は、例えば動的テクスチャの場合の性能を制限する光学フロー推定のような支持要素を必要とする。
内部学習の文脈における拡散モデルの効率的な学習と推論のための新しい手法を提案する。
拡散過程を異なる学習間隔に分割し,学習ステップを大幅に単純化する。
特に動的背景やテクスチャの場合において,本手法が最先端性能に達することを示す定性的,定量的な結果を示す。
関連論文リスト
- Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [44.92712228326116]
ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。
入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。
MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
論文 参考訳(メタデータ) (2024-03-20T16:53:45Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Flow-Guided Diffusion for Video Inpainting [15.478104117672803]
ビデオのインペイントは、大きな動きや低照度条件のような複雑なシナリオによって挑戦されてきた。
新たな拡散モデルを含む現在の手法は、品質と効率の限界に直面している。
本稿では、時間的一貫性と塗装品質を大幅に向上させる新しい手法であるFGDVI(Flow-Guided Diffusion Model for Video Inpainting)を提案する。
論文 参考訳(メタデータ) (2023-11-26T17:48:48Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - SinFusion: Training Diffusion Models on a Single Image or Video [11.473177123332281]
拡散モデルでは画像生成とビデオ生成が大幅に進歩し、GANよりも品質と多様性が向上した。
本稿では,単一入力画像やビデオ上で拡散モデルをトレーニングすることで,この問題を解決する方法を示す。
我々の画像/ビデオ特異的拡散モデル(SinFusion)は、拡散モデルの条件付け機能を利用して、単一の画像またはビデオの外観とダイナミクスを学習する。
論文 参考訳(メタデータ) (2022-11-21T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。