Fugu-MT 論文翻訳(概要): Structure and Content-Guided Video Synthesis with Diffusion Models

論文の概要: Structure and Content-Guided Video Synthesis with Diffusion Models

arxiv url: http://arxiv.org/abs/2302.03011v1
Date: Mon, 6 Feb 2023 18:50:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 15:25:45.183955
Title: Structure and Content-Guided Video Synthesis with Diffusion Models
Title（参考訳）: 拡散モデルによる構造とコンテンツ誘導ビデオ合成
Authors: Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, Anastasis Germanidis
Abstract要約: 所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
参考スコア（独自算出の注目度）: 13.464501385061032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-guided generative diffusion models unlock powerful image creation and editing tools. While these have been extended to video generation, current approaches that edit the content of existing footage while retaining structure require expensive re-training for every input or rely on error-prone propagation of image edits across frames. In this work, we present a structure and content-guided video diffusion model that edits videos based on visual or textual descriptions of the desired output. Conflicts between user-provided content edits and structure representations occur due to insufficient disentanglement between the two aspects. As a solution, we show that training on monocular depth estimates with varying levels of detail provides control over structure and content fidelity. Our model is trained jointly on images and videos which also exposes explicit control of temporal consistency through a novel guidance method. Our experiments demonstrate a wide variety of successes; fine-grained control over output characteristics, customization based on a few reference images, and a strong user preference towards results by our model.
Abstract（参考訳）: テキスト誘導生成拡散モデルにより、強力な画像作成および編集ツールが解放される。これらはビデオ生成に拡張されているが、既存の映像のコンテンツを編集する現在のアプローチでは、入力毎に高価な再トレーニングが必要か、あるいはフレーム間の画像編集の誤りやすい伝播に依存している。本稿では、所望の出力の視覚的またはテキスト的記述に基づいて映像を編集する構造およびコンテンツ誘導ビデオ拡散モデルを提案する。ユーザが提供するコンテンツ編集と構造表現の衝突は、2つの側面の行き違いが不十分なため生じる。その結果,細部レベルの異なる単眼深度推定の学習は,構造とコンテンツの忠実度を制御できることを示した。本モデルでは,映像と映像を共同で学習し,新たな指導手法により時間的一貫性を明示的に制御する。実験では、出力特性のきめ細かい制御、いくつかの参照画像に基づくカスタマイズ、モデルによる結果に対するユーザの強い好みなど、様々な成功例を実証した。

関連論文リスト

VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文参考訳（メタデータ） (2025-06-12T17:46:54Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文参考訳（メタデータ） (2024-01-04T18:59:24Z)
InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文参考訳（メタデータ） (2023-07-22T17:05:47Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文参考訳（メタデータ） (2023-05-15T17:59:03Z)
Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文参考訳（メタデータ） (2023-03-22T16:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。