論文の概要: AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
- arxiv url: http://arxiv.org/abs/2403.14468v2
- Date: Fri, 22 Mar 2024 02:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:38:56.931997
- Title: AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
- Title(参考訳): AnyV2V:あらゆるビデオ編集タスクのためのプラグイン・アンド・プレイフレームワーク
- Authors: Max Ku, Cong Wei, Weiming Ren, Harry Yang, Wenhu Chen,
- Abstract要約: 本稿では,ビデオ編集を2つのステップに簡略化する新しいトレーニングフリーフレームワークであるAnyV2Vを紹介する。
最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。
従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートする。
- 参考スコア(独自算出の注目度): 41.640692114423544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.
- Abstract(参考訳): ビデオ対ビデオ編集は、ソースビデオと提供されたコントロールに合わせる新しいビデオを生成するために、追加の制御(テキストプロンプト、主題、スタイルなど)と共にソースビデオを編集する。
従来のメソッドは特定の編集タイプに制限されており、幅広いユーザ要求を満たす能力に制限されている。
本稿では,(1)既製の画像編集モデル(例:InstructPix2Pix,InstantIDなど)を用いて第1フレームを編集し,(2)既存の画像から映像への生成モデル(例:I2VGen-XL)を用いてDDIMのインバージョンと特徴注入を行う。
最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。
従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートできる。
第2段階では、AnyV2Vは既存の画像間モデルをプラグインしてDDIMインバージョンと中間機能注入を実行し、ソースビデオとの外観と動きの整合性を維持する。
プロンプトベースの編集では、AnyV2Vは、プロンプトアライメントで35倍、人選好で25倍の速さで過去のベストアプローチを上回り得ることを示す。
3つの新しいタスクにおいて、AnyV2Vは高い成功率を達成することを示す。
我々は、高速進化する画像編集手法をシームレスに統合する能力により、AnyV2Vは今後も成長を続けると信じている。
このような互換性は、AnyV2Vの汎用性を高め、多様なユーザー要求に対応するのに役立つ。
関連論文リスト
- RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion [19.969947635371]
Videoshopは、ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集アルゴリズムである。
ユーザーはオブジェクトの追加や削除、セマンティックな変更、ストック写真をビデオに挿入したり、場所や外観を細かくコントロールできる。
Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。
論文 参考訳(メタデータ) (2024-03-21T17:59:03Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。