Fugu-MT 論文翻訳(概要): AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks

論文の概要: AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks

arxiv url: http://arxiv.org/abs/2403.14468v3
Date: Mon, 10 Jun 2024 18:38:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 22:03:14.353102
Title: AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks
Title（参考訳）: AnyV2V: ビデオ対ビデオ編集タスクのためのチューニング不要のフレームワーク
Authors: Max Ku, Cong Wei, Weiming Ren, Harry Yang, Wenhu Chen,
Abstract要約: 我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。 AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。評価の結果,AnyV2Vは自動評価や人的評価において,他のベースライン法よりも有意に優れていた。
参考スコア（独自算出の注目度）: 41.640692114423544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the dynamic field of digital content creation using generative models, state-of-the-art video editing models still do not offer the level of quality and control that users desire. Previous works on video editing either extended from image-based generative models in a zero-shot manner or necessitated extensive fine-tuning, which can hinder the production of fluid video edits. Furthermore, these methods frequently rely on textual input as the editing guidance, leading to ambiguities and limiting the types of edits they can perform. Recognizing these challenges, we introduce AnyV2V, a novel tuning-free paradigm designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model to modify the first frame, (2) utilizing an existing image-to-video generation model to generate the edited video through temporal feature injection. AnyV2V can leverage any existing image editing tools to support an extensive array of video editing tasks, including prompt-based editing, reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. AnyV2V can also support any video length. Our evaluation indicates that AnyV2V significantly outperforms other baseline methods in automatic and human evaluations by significant margin, maintaining visual consistency with the source video while achieving high-quality edits across all the editing tasks.
Abstract（参考訳）: 生成モデルを用いたデジタルコンテンツ作成のダイナミックな分野において、最先端のビデオ編集モデルは、ユーザーが望む品質とコントロールのレベルを提供していない。これまでは、画像ベースの生成モデルからゼロショットで拡張されたビデオ編集や、流体ビデオ編集の妨げとなる広範囲な微調整が必要だった。さらに、これらの手法は、しばしばテキスト入力を編集指導として頼りにしており、曖昧さと実行可能な編集の種類を制限している。これらの課題を認識し,ビデオ編集を簡略化するために設計された新しいチューニング不要なパラダイムであるAnyV2Vを紹介した。(1)既製の画像編集モデルを用いて第1フレームを編集し,(2)既存の画像・映像生成モデルを用いて時間的特徴注入により編集ビデオを生成する。 AnyV2Vは既存の画像編集ツールを利用して、プロンプトベースの編集、参照ベースのスタイル転送、主観駆動編集、アイデンティティ操作など、様々なビデオ編集タスクをサポートすることができる。 AnyV2Vはどんなビデオ長もサポートできる。評価の結果,AnyV2Vは,全編集作業において高品質な編集を行いながら,映像との視覚的整合性を保ちながら,自動的,人為的評価において,他のベースライン手法よりも有意に優れていたことが示唆された。

関連論文リスト

InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction [10.855393943204728]
高品質なインストラクションベースのビデオ編集データセットを,100万トリプル,すなわちInsViE-1Mで提示する。まず、高解像度で高品質なソースビデオと画像をキュレートし、次に効率的な編集フィルタリングパイプラインを設計し、モデルトレーニングのための高品質な編集三脚を構築する。
論文参考訳（メタデータ） (2025-03-26T07:30:58Z)
V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes [29.80140472486948]
V$2$Editは、インストラクション誘導ビデオと3Dシーン編集のためのトレーニング不要のフレームワークである。複雑な編集タスクを単純なサブタスクに分解するプログレッシブ戦略を導入する。 V$2$Edit を "render-edit-reconstruct" プロセスで 3D シーン編集に拡張し,高品質な 3D 一貫性のある編集を可能にする。
論文参考訳（メタデータ） (2025-03-13T17:59:55Z)
DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。 DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文参考訳（メタデータ） (2024-12-04T14:28:43Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [11.09708780767668]
本稿では,形状に一貫性のあるビデオ編集手法であるStableV2Vについて述べる。提案手法は,編集パイプライン全体を複数のシーケンシャルな手順に分解し,最初のビデオフレームを編集し,配信された動作とユーザプロンプトのアライメントを確立し,最終的にそのアライメントに基づいて編集内容を他のすべてのフレームに伝達する。実験結果と解析結果から,既存の最先端研究と比較して,提案手法の性能,視覚的整合性,推論効率が向上していることが示唆された。
論文参考訳（メタデータ） (2024-11-17T11:48:01Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文参考訳（メタデータ） (2024-04-18T23:25:27Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)
Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。 Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文参考訳（メタデータ） (2023-03-08T17:53:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。