論文の概要: AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
- arxiv url: http://arxiv.org/abs/2403.14468v2
- Date: Fri, 22 Mar 2024 02:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:38:56.931997
- Title: AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
- Title(参考訳): AnyV2V:あらゆるビデオ編集タスクのためのプラグイン・アンド・プレイフレームワーク
- Authors: Max Ku, Cong Wei, Weiming Ren, Harry Yang, Wenhu Chen,
- Abstract要約: 本稿では,ビデオ編集を2つのステップに簡略化する新しいトレーニングフリーフレームワークであるAnyV2Vを紹介する。
最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。
従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートする。
- 参考スコア(独自算出の注目度): 41.640692114423544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.
- Abstract(参考訳): ビデオ対ビデオ編集は、ソースビデオと提供されたコントロールに合わせる新しいビデオを生成するために、追加の制御(テキストプロンプト、主題、スタイルなど)と共にソースビデオを編集する。
従来のメソッドは特定の編集タイプに制限されており、幅広いユーザ要求を満たす能力に制限されている。
本稿では,(1)既製の画像編集モデル(例:InstructPix2Pix,InstantIDなど)を用いて第1フレームを編集し,(2)既存の画像から映像への生成モデル(例:I2VGen-XL)を用いてDDIMのインバージョンと特徴注入を行う。
最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。
従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートできる。
第2段階では、AnyV2Vは既存の画像間モデルをプラグインしてDDIMインバージョンと中間機能注入を実行し、ソースビデオとの外観と動きの整合性を維持する。
プロンプトベースの編集では、AnyV2Vは、プロンプトアライメントで35倍、人選好で25倍の速さで過去のベストアプローチを上回り得ることを示す。
3つの新しいタスクにおいて、AnyV2Vは高い成功率を達成することを示す。
我々は、高速進化する画像編集手法をシームレスに統合する能力により、AnyV2Vは今後も成長を続けると信じている。
このような互換性は、AnyV2Vの汎用性を高め、多様なユーザー要求に対応するのに役立つ。
関連論文リスト
- GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Video Editing via Factorized Diffusion Distillation [56.03355109743435]
EVE(Emu Video Edit)は,映像編集において,教師付き映像編集データに頼らずに新たな最先端技術を確立するモデルである。
EVEを開発するために、画像編集アダプタとビデオ生成アダプタを別々に訓練し、同じテキスト・画像モデルにアタッチする。
論文 参考訳(メタデータ) (2024-03-14T12:22:54Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z) - Language-based Video Editing via Multi-Modal Multi-Level Transformer [64.88686984864215]
本稿では,テキスト指示によりモデルを編集し,ソース映像を対象映像に編集する言語ベースの映像編集タスクを提案する。
LBVEを実現するマルチモードマルチレベルトランス(M$3$L-Transformer)を提案します。
M$3$L-Transformerはビデオ認識と言語意味の対応を異なるレベルで動的に学習する。
論文 参考訳(メタデータ) (2021-04-02T15:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。