Fugu-MT 論文翻訳(概要): Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

論文の概要: Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

arxiv url: http://arxiv.org/abs/2305.08850v2
Date: Mon, 19 Feb 2024 02:42:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 06:58:41.384643
Title: Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
Title（参考訳）: Make-A-Protagonist: 専門家の集まりによるジェネリックビデオ編集
Authors: Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee
Abstract要約: 我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
参考スコア（独自算出の注目度）: 116.05656635044357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.
Abstract（参考訳）: テキスト駆動画像とビデオ拡散モデルは、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。近年,拡散型生成モデルにおける既存画像や映像の編集・変動が注目されている。しかし、以前の作品では、テキストでコンテンツを編集したり、単一の視覚的な手掛かりを使って粗いパーソナライゼーションを提供することに制限されており、細かい細かい制御を必要とする不適切なコンテンツには不向きである。そこで本研究では,テキストおよび視覚的手がかりを用いて,個人を主人公にすることを目的とした映像編集フレームワークMake-A-Protagonistを提案する。具体的には,複数の専門家を活用して音源映像の解析を行い,視覚およびテキストの手がかりを対象とし,マスクガイド付分節サンプリングを用いて所望の出力を生成する視覚テキスト映像生成モデルを提案する。広範囲な結果は、Make-A-Protagonistの多彩で顕著な編集能力を示している。

関連論文リスト

Instruction-based Image Editing with Planning, Reasoning, and Generation [52.0364486403062]
以前の作業では、大きな言語モデル、オブジェクトセグメンテーションモデル、このタスクのためのモデル編集の連鎖を利用していた。我々は、命令ベースの画像編集モデルにインテリジェントな能力を提供する新しいマルチモーダリティモデルにより、理解と生成をブリッジすることを目指している。本手法は,複雑な実世界の画像に対して,競合する編集能力を有する。
論文参考訳（メタデータ） (2026-02-26T04:56:02Z)
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T17:59:30Z)
From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding [17.769963004697047]
ヒューマンインスパイアされた自動ビデオ編集フレームワーク(HIVE)を提案する。提案手法は,多モーダル大言語モデルによる文字抽出,対話解析,物語要約を取り入れたものである。我々のフレームワークは、一般的な編集タスクと広告指向編集タスクの両方において、既存のベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-07-03T16:54:32Z)
VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文参考訳（メタデータ） (2025-06-12T17:46:54Z)
UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文参考訳（メタデータ） (2024-01-18T13:23:51Z)
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文参考訳（メタデータ） (2023-11-02T04:38:50Z)
InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文参考訳（メタデータ） (2023-07-22T17:05:47Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文参考訳（メタデータ） (2023-05-29T17:38:18Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)
Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文参考訳（メタデータ） (2023-02-02T18:58:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。