論文の概要: Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
- arxiv url: http://arxiv.org/abs/2305.08850v1
- Date: Mon, 15 May 2023 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:18:38.728996
- Title: Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
- Title(参考訳): Make-A-Protagonist: 専門家の集まりによるジェネリックビデオ編集
- Authors: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
- Abstract要約: 我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
- 参考スコア(独自算出の注目度): 93.88152456214979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The text-driven image and video diffusion models have achieved unprecedented
success in generating realistic and diverse content. Recently, the editing and
variation of existing images and videos in diffusion-based generative models
have garnered significant attention. However, previous works are limited to
editing content with text or providing coarse personalization using a single
visual clue, rendering them unsuitable for indescribable content that requires
fine-grained and detailed control. In this regard, we propose a generic video
editing framework called Make-A-Protagonist, which utilizes textual and visual
clues to edit videos with the goal of empowering individuals to become the
protagonists. Specifically, we leverage multiple experts to parse source video,
target visual and textual clues, and propose a visual-textual-based video
generation model that employs mask-guided denoising sampling to generate the
desired output. Extensive results demonstrate the versatile and remarkable
editing capabilities of Make-A-Protagonist.
- Abstract(参考訳): テキスト駆動画像とビデオ拡散モデルは、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。
近年,拡散型生成モデルにおける既存画像や映像の編集・変動が注目されている。
しかし、以前の作品では、テキストでコンテンツを編集したり、単一の視覚的な手掛かりを使って粗いパーソナライゼーションを提供することに制限されており、細かい細かい制御を必要とする不適切なコンテンツには不向きである。
そこで本研究では,テキストおよび視覚的手がかりを用いて,個人を主人公にすることを目的とした映像編集フレームワークMake-A-Protagonistを提案する。
具体的には,複数の専門家を活用して音源映像の解析を行い,視覚およびテキストの手がかりを対象とし,マスクガイド付分節サンプリングを用いて所望の出力を生成する視覚テキスト映像生成モデルを提案する。
広範囲な結果は、Make-A-Protagonistの多彩で顕著な編集能力を示している。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。
本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文 参考訳(メタデータ) (2023-02-06T18:50:23Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。