論文の概要: Infusion: internal diffusion for inpainting of dynamic textures and complex motion
- arxiv url: http://arxiv.org/abs/2311.01090v2
- Date: Mon, 5 Aug 2024 08:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 00:06:03.849482
- Title: Infusion: internal diffusion for inpainting of dynamic textures and complex motion
- Title(参考訳): 注入:動的テクスチャの塗布と複雑な運動のための内部拡散
- Authors: Nicolas Cherel, Andrés Almansa, Yann Gousseau, Alasdair Newson,
- Abstract要約: ビデオの塗装は、ビデオ内の領域を視覚的に説得力のある方法で埋める作業である。
拡散モデルは、画像やビデオを含む複雑なデータ分散をモデル化する際、印象的な結果を示している。
ビデオインペイントの場合,ビデオの自己相似性が高いため,拡散モデルのトレーニングデータは入力ビデオに制限され,満足な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 4.912318087940015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video inpainting is the task of filling a region in a video in a visually convincing manner. It is very challenging due to the high dimensionality of the data and the temporal consistency required for obtaining convincing results. Recently, diffusion models have shown impressive results in modeling complex data distributions, including images and videos. Such models remain nonetheless very expensive to train and to perform inference with, which strongly reduce their applicability to videos, and yields unreasonable computational loads. We show that in the case of video inpainting, thanks to the highly auto-similar nature of videos, the training data of a diffusion model can be restricted to the input video and still produce very satisfying results. This leads us to adopt an internal learning approach, which also allows us to greatly reduce the neural network size by about three orders of magnitude less than current diffusion models used for image inpainting. We also introduce a new method for efficient training and inference of diffusion models in the context of internal learning, by splitting the diffusion process into different learning intervals corresponding to different noise levels of the diffusion process. To the best of our knowledge, this is the first video inpainting method based purely on diffusion. Other methods require additional components such as optical flow estimation, which limits their performance in the case of dynamic textures and complex motions. We show qualitative and quantitative results, demonstrating that our method reaches state of the art performance in the case of dynamic textures and complex dynamic backgrounds.
- Abstract(参考訳): ビデオの塗装は、ビデオ内の領域を視覚的に説得力のある方法で埋める作業である。
データの高次元性と、説得力のある結果を得るために必要となる時間的一貫性のため、非常に難しい。
近年,画像やビデオを含む複雑なデータ分布のモデル化において,拡散モデルが顕著な成果を上げている。
しかしながら、そのようなモデルはトレーニングや推論に非常に高価であり、ビデオへの適用性が大幅に低下し、不合理な計算負荷が生じる。
ビデオインペイントの場合,ビデオの自己相似性が高いため,拡散モデルのトレーニングデータは入力ビデオに制限され,非常に満足な結果が得られることを示す。
これにより、内部学習アプローチを採用することができ、また、画像インペイントに使用される現在の拡散モデルよりも、ニューラルネットワークのサイズを約3桁小さくすることも可能になります。
また,拡散過程の雑音レベルに応じて,拡散過程を異なる学習区間に分割することで,内部学習の文脈における拡散モデルの効率的な訓練と推論を行う手法を提案する。
我々の知る限りでは、これは拡散に基づく最初のビデオ塗装法である。
その他の方法は光学的フロー推定のような追加の要素を必要としており、動的テクスチャや複雑な動きの場合にその性能を制限している。
我々は,動的テクスチャや複雑な動的背景の場合に,その手法が最先端の性能に達することを示す定性的かつ定量的な結果を示す。
関連論文リスト
- From Image to Video: An Empirical Study of Diffusion Representations [35.46566116011867]
拡散モデルは生成モデルに革命をもたらし、画像合成やビデオ合成において前例のないリアリズムを可能にした。
この研究は、視覚的理解のための映像と画像の拡散目標の直接比較として初めて行われ、表現学習における時間情報の役割についての洞察を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:53:46Z) - VipDiff: Towards Coherent and Diverse Video Inpainting via Training-free Denoising Diffusion Models [21.584843961386888]
VipDiffは、時間的コヒーレントな塗装結果を生成するために、逆拡散過程に拡散モデルを条件付けるためのフレームワークである。
この手法は、空間的時間的コヒーレンスと忠実度の両方の観点から、最先端の映像塗装法よりも優れている。
論文 参考訳(メタデータ) (2025-01-21T16:39:09Z) - DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。
また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文 参考訳(メタデータ) (2025-01-17T08:03:02Z) - DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On [103.89972383310715]
DiffusionTrendは、事前情報に富んだ潜伏情報を利用して、衣服の詳細のニュアンスをキャプチャする。
視覚的に魅力的な試行体験を提供し、トレーニング不要の拡散モデルの可能性を強調します。
論文 参考訳(メタデータ) (2024-12-19T02:24:35Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。
本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-05T12:53:05Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。