Fugu-MT 論文翻訳(概要): VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

論文の概要: VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing

arxiv url: http://arxiv.org/abs/2306.08707v4
Date: Tue, 2 Apr 2024 11:08:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:31:56.813213
Title: VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing
Title（参考訳）: VidEdit:ゼロショットと空間対応のテキスト駆動ビデオ編集
Authors: Paul Couairon, Clément Rambour, Jean-Emmanuel Haugeard, Nicolas Thome,
Abstract要約: ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
参考スコア（独自算出の注目度）: 18.24307442582304
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recently, diffusion-based generative models have achieved remarkable success for image generation and edition. However, existing diffusion-based video editing approaches lack the ability to offer precise control over generated content that maintains temporal consistency in long-term videos. On the other hand, atlas-based methods provide strong temporal consistency but are costly to edit a video and lack spatial control. In this work, we introduce VidEdit, a novel method for zero-shot text-based video editing that guarantees robust temporal and spatial consistency. In particular, we combine an atlas-based video representation with a pre-trained text-to-image diffusion model to provide a training-free and efficient video editing method, which by design fulfills temporal smoothness. To grant precise user control over generated content, we utilize conditional information extracted from off-the-shelf panoptic segmenters and edge detectors which guides the diffusion sampling process. This method ensures a fine spatial control on targeted regions while strictly preserving the structure of the original video. Our quantitative and qualitative experiments show that VidEdit outperforms state-of-the-art methods on DAVIS dataset, regarding semantic faithfulness, image preservation, and temporal consistency metrics. With this framework, processing a single video only takes approximately one minute, and it can generate multiple compatible edits based on a unique text prompt. Project web-page at https://videdit.github.io
Abstract（参考訳）: 近年,拡散型生成モデルは画像生成・編集において顕著な成功を収めている。しかし、既存の拡散ベースのビデオ編集アプローチでは、長期的なビデオの時間的一貫性を維持するために生成されたコンテンツを正確に制御する能力が欠如している。一方, アトラス法は時間的一貫性が強いが, 映像編集に費用がかかるため, 空間的制御が欠如している。本研究では,時間的・空間的整合性を保証するゼロショットテキストベースのビデオ編集手法であるVidEditを紹介する。特に,アトラスをベースとした映像表現と事前学習したテキスト・画像拡散モデルを組み合わせることで,時間的滑らかさを設計する訓練不要で効率的な映像編集方法を提供する。生成したコンテンツに対して正確なユーザ制御を与えるために,本研究では,拡散サンプリングプロセスの導出を行う市販のパノプティクスセグメンタとエッジ検出器から抽出した条件情報を利用する。この方法は、オリジナルビデオの構造を厳格に保存しつつ、ターゲット領域の空間制御をきめ細かなものにする。定量的および定性的な実験により、VidEditは、意味的忠実性、画像保存、時間的整合性メトリクスに関して、DAVISデータセット上で最先端の手法より優れていることが示された。このフレームワークでは、単一のビデオを処理するのに約1分しかかからず、ユニークなテキストプロンプトに基づいて複数の互換性のある編集を生成することができる。 Project Web-page at https://videdit.github.io

関連論文リスト

EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。 EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文参考訳（メタデータ） (2025-12-18T18:59:57Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文参考訳（メタデータ） (2023-10-15T02:39:25Z)
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-10-09T17:59:53Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
StableVideo: Text-driven Consistency-aware Diffusion Video Editing [24.50933856309234]
拡散に基づく手法は、リアルな画像やビデオを生成することができるが、ビデオ内の既存のオブジェクトを編集するのに苦労し、その外観は時間の経過とともに保たれる。本稿では、既存のテキスト駆動拡散モデルへの時間的依存を導入し、編集対象に対して一貫した外観を生成する。我々は,この機構,すなわちStableVideoに基づくテキスト駆動のビデオ編集フレームワークを構築し,一貫性を意識したビデオ編集を実現する。
論文参考訳（メタデータ） (2023-08-18T14:39:16Z)
InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文参考訳（メタデータ） (2023-07-22T17:05:47Z)
TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文参考訳（メタデータ） (2023-07-19T18:00:03Z)
Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文参考訳（メタデータ） (2023-03-30T17:59:25Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。