論文の概要: Structure and Content-Guided Video Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.03011v1
- Date: Mon, 6 Feb 2023 18:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 15:25:45.183955
- Title: Structure and Content-Guided Video Synthesis with Diffusion Models
- Title(参考訳): 拡散モデルによる構造とコンテンツ誘導ビデオ合成
- Authors: Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan
Granskog, Anastasis Germanidis
- Abstract要約: 所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。
本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
- 参考スコア(独自算出の注目度): 13.464501385061032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided generative diffusion models unlock powerful image creation and
editing tools. While these have been extended to video generation, current
approaches that edit the content of existing footage while retaining structure
require expensive re-training for every input or rely on error-prone
propagation of image edits across frames. In this work, we present a structure
and content-guided video diffusion model that edits videos based on visual or
textual descriptions of the desired output. Conflicts between user-provided
content edits and structure representations occur due to insufficient
disentanglement between the two aspects. As a solution, we show that training
on monocular depth estimates with varying levels of detail provides control
over structure and content fidelity. Our model is trained jointly on images and
videos which also exposes explicit control of temporal consistency through a
novel guidance method. Our experiments demonstrate a wide variety of successes;
fine-grained control over output characteristics, customization based on a few
reference images, and a strong user preference towards results by our model.
- Abstract(参考訳): テキスト誘導生成拡散モデルにより、強力な画像作成および編集ツールが解放される。
これらはビデオ生成に拡張されているが、既存の映像のコンテンツを編集する現在のアプローチでは、入力毎に高価な再トレーニングが必要か、あるいはフレーム間の画像編集の誤りやすい伝播に依存している。
本稿では、所望の出力の視覚的またはテキスト的記述に基づいて映像を編集する構造およびコンテンツ誘導ビデオ拡散モデルを提案する。
ユーザが提供するコンテンツ編集と構造表現の衝突は、2つの側面の行き違いが不十分なため生じる。
その結果,細部レベルの異なる単眼深度推定の学習は,構造とコンテンツの忠実度を制御できることを示した。
本モデルでは,映像と映像を共同で学習し,新たな指導手法により時間的一貫性を明示的に制御する。
実験では、出力特性のきめ細かい制御、いくつかの参照画像に基づくカスタマイズ、モデルによる結果に対するユーザの強い好みなど、様々な成功例を実証した。
関連論文リスト
- VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - InstructVid2Vid: Controllable Video Editing with Natural Language
Instructions [106.6740407795944]
人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $textbfInstructVid2Vid$ を提案する。
提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換を行なわずに行うことができる。
実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、編集、背景の変更、スタイル転送など様々な編集を行うことができる。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。