Fugu-MT 論文翻訳(概要): CCEdit: Creative and Controllable Video Editing via Diffusion Models

論文の概要: CCEdit: Creative and Controllable Video Editing via Diffusion Models

arxiv url: http://arxiv.org/abs/2309.16496v1
Date: Thu, 28 Sep 2023 15:03:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 13:58:25.678359
Title: CCEdit: Creative and Controllable Video Editing via Diffusion Models
Title（参考訳）: ccedit:拡散モデルによる創造的かつ制御可能なビデオ編集
Authors: Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo
Abstract要約: CCEditは、クリエイティブでコントロール可能なビデオ編集の課題に対処するために設計された多用途フレームワークである。我々は、構造的整合性を維持するために基盤となるControlNetアーキテクチャを活用している。我々は,参照条件付きビデオ編集を導入し,ユーザがビデオ編集に対して正確な創造的な制御を行えるようにした。
参考スコア（独自算出の注目度）: 60.861959978777115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present CCEdit, a versatile framework designed to address the challenges of creative and controllable video editing. CCEdit accommodates a wide spectrum of user editing requirements and enables enhanced creative control through an innovative approach that decouples video structure and appearance. We leverage the foundational ControlNet architecture to preserve structural integrity, while seamlessly integrating adaptable temporal modules compatible with state-of-the-art personalization techniques for text-to-image generation, such as DreamBooth and LoRA.Furthermore, we introduce reference-conditioned video editing, empowering users to exercise precise creative control over video editing through the more manageable process of editing key frames. Our extensive experimental evaluations confirm the exceptional functionality and editing capabilities of the proposed CCEdit framework. Demo video is available at https://www.youtube.com/watch?v=UQw4jq-igN4.
Abstract（参考訳）: 本稿では,創造的かつ制御可能なビデオ編集の課題に対処する汎用的なフレームワークであるCCEditを紹介する。 CCEditは、幅広いユーザー編集要件に対応し、ビデオの構造と外観を分離する革新的なアプローチを通じて、創造的な制御を強化する。基本となるControlNetアーキテクチャを活用して構造的整合性を維持するとともに,DreamBoothやLoRAといったテキスト・ツー・イメージ生成のための最先端のパーソナライズ技術と互換性のある適応可能な時間モジュールをシームレスに統合する。提案するcceditフレームワークの特筆すべき機能と編集機能に関する広範な実験評価を行った。デモビデオはhttps://www.youtube.com/watch? v=UQw4jq-igN4。

関連論文リスト

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning [8.077442711429317]
拡散モデルを用いたビデオ編集は、ビデオの高品質な編集を作成できる顕著な成果を上げている。ファーストフレーム誘導編集は、最初のフレームを制御できるが、その後のフレームよりも柔軟性に欠ける。フレキシブルなビデオ編集のための事前訓練された画像対ビデオ(I2V)モデルに適応するマスクベースのLoRAチューニング手法を提案する。
論文参考訳（メタデータ） (2025-06-11T18:03:55Z)
UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文参考訳（メタデータ） (2024-11-17T11:48:01Z)
DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.92659116774374]
大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。 1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
論文参考訳（メタデータ） (2024-10-21T19:59:04Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。 AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文参考訳（メタデータ） (2024-03-21T15:15:00Z)
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文参考訳（メタデータ） (2024-01-04T18:59:24Z)
Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。 Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文参考訳（メタデータ） (2023-03-08T17:53:49Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。