論文の概要: CCEdit: Creative and Controllable Video Editing via Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.16496v2
- Date: Fri, 1 Dec 2023 03:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:56:40.122690
- Title: CCEdit: Creative and Controllable Video Editing via Diffusion Models
- Title(参考訳): ccedit:拡散モデルによる創造的かつ制御可能なビデオ編集
- Authors: Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong
Luo, Zhibo Chen, Baining Guo
- Abstract要約: CCEditは拡散モデルに基づく多用途な生成ビデオ編集フレームワークである。
我々のアプローチは、構造と外観制御を分離する新しいトリデントネットワーク構造を用いる。
ユーザスタディでは,CCEditと8つの最先端のビデオ編集手法を比較した。
- 参考スコア(独自算出の注目度): 60.861959978777115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present CCEdit, a versatile generative video editing
framework based on diffusion models. Our approach employs a novel trident
network structure that separates structure and appearance control, ensuring
precise and creative editing capabilities. Utilizing the foundational
ControlNet architecture, we maintain the structural integrity of the video
during editing. The incorporation of an additional appearance branch enables
users to exert fine-grained control over the edited key frame. These two side
branches seamlessly integrate into the main branch, which is constructed upon
existing text-to-image (T2I) generation models, through learnable temporal
layers. The versatility of our framework is demonstrated through a diverse
range of choices in both structure representations and personalized T2I models,
as well as the option to provide the edited key frame. To facilitate
comprehensive evaluation, we introduce the BalanceCC benchmark dataset,
comprising 100 videos and 4 target prompts for each video. Our extensive user
studies compare CCEdit with eight state-of-the-art video editing methods. The
outcomes demonstrate CCEdit's substantial superiority over all other methods.
- Abstract(参考訳): 本稿では,拡散モデルに基づく汎用な生成ビデオ編集フレームワークであるCCEditを提案する。
提案手法では,構造と外観制御を分離し,正確かつ創造的な編集能力を確保する新しいトライデントネットワーク構造を採用する。
基本制御ネットアーキテクチャを利用して,映像の編集時の構造的完全性を維持する。
追加の外観分岐を組み込むことにより、ユーザーは編集されたキーフレームに対してきめ細かい制御を行うことができる。
これら2つのブランチは、学習可能なテンポラリレイヤを通じて、既存のtext-to-image(t2i)生成モデル上に構築されたメインブランチにシームレスに統合される。
フレームワークの汎用性は、構造表現とパーソナライズされたT2Iモデルの両方における多様な選択肢と、編集されたキーフレームを提供するオプションによって実証される。
包括的評価を容易にするため,100本のビデオと4本のターゲットプロンプトからなるBalanceCCベンチマークデータセットを導入した。
CCEditと8つの最先端ビデオ編集手法を比較した。
結果は、cceditが他のすべての方法よりも優れていることを示している。
関連論文リスト
- StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.92659116774374]
大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。
1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
論文 参考訳(メタデータ) (2024-10-21T19:59:04Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。
本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文 参考訳(メタデータ) (2023-02-06T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。