論文の概要: CCEdit: Creative and Controllable Video Editing via Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.16496v1
- Date: Thu, 28 Sep 2023 15:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:58:25.678359
- Title: CCEdit: Creative and Controllable Video Editing via Diffusion Models
- Title(参考訳): ccedit:拡散モデルによる創造的かつ制御可能なビデオ編集
- Authors: Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong
Luo, Zhibo Chen, Baining Guo
- Abstract要約: CCEditは、クリエイティブでコントロール可能なビデオ編集の課題に対処するために設計された多用途フレームワークである。
我々は、構造的整合性を維持するために基盤となるControlNetアーキテクチャを活用している。
我々は,参照条件付きビデオ編集を導入し,ユーザがビデオ編集に対して正確な創造的な制御を行えるようにした。
- 参考スコア(独自算出の注目度): 60.861959978777115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present CCEdit, a versatile framework designed to address
the challenges of creative and controllable video editing. CCEdit accommodates
a wide spectrum of user editing requirements and enables enhanced creative
control through an innovative approach that decouples video structure and
appearance. We leverage the foundational ControlNet architecture to preserve
structural integrity, while seamlessly integrating adaptable temporal modules
compatible with state-of-the-art personalization techniques for text-to-image
generation, such as DreamBooth and LoRA.Furthermore, we introduce
reference-conditioned video editing, empowering users to exercise precise
creative control over video editing through the more manageable process of
editing key frames. Our extensive experimental evaluations confirm the
exceptional functionality and editing capabilities of the proposed CCEdit
framework. Demo video is available at
https://www.youtube.com/watch?v=UQw4jq-igN4.
- Abstract(参考訳): 本稿では,創造的かつ制御可能なビデオ編集の課題に対処する汎用的なフレームワークであるCCEditを紹介する。
CCEditは、幅広いユーザー編集要件に対応し、ビデオの構造と外観を分離する革新的なアプローチを通じて、創造的な制御を強化する。
基本となるControlNetアーキテクチャを活用して構造的整合性を維持するとともに,DreamBoothやLoRAといったテキスト・ツー・イメージ生成のための最先端のパーソナライズ技術と互換性のある適応可能な時間モジュールをシームレスに統合する。
提案するcceditフレームワークの特筆すべき機能と編集機能に関する広範な実験評価を行った。
デモビデオはhttps://www.youtube.com/watch?
v=UQw4jq-igN4。
関連論文リスト
- StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。
提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。
実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文 参考訳(メタデータ) (2024-11-17T11:48:01Z) - DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.92659116774374]
大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。
1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
論文 参考訳(メタデータ) (2024-10-21T19:59:04Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。
本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文 参考訳(メタデータ) (2023-02-06T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。