論文の概要: Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.01107v1
- Date: Mon, 2 Oct 2023 11:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:12:00.192127
- Title: Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models
- Title(参考訳): ground-a-video:テキストから画像への拡散モデルを用いたゼロショットグラウンドビデオ編集
- Authors: Hyeonho Jeong and Jong Chul Ye
- Abstract要約: Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent endeavors in video editing have showcased promising results in
single-attribute editing or style transfer tasks, either by training
text-to-video (T2V) models on text-video data or adopting training-free
methods. However, when confronted with the complexities of multi-attribute
editing scenarios, they exhibit shortcomings such as omitting or overlooking
intended attribute changes, modifying the wrong elements of the input video,
and failing to preserve regions of the input video that should remain intact.
To address this, here we present a novel grounding-guided video-to-video
translation framework called Ground-A-Video for multi-attribute video editing.
Ground-A-Video attains temporally consistent multi-attribute editing of input
videos in a training-free manner without aforementioned shortcomings. Central
to our method is the introduction of Cross-Frame Gated Attention which
incorporates groundings information into the latent representations in a
temporally consistent fashion, along with Modulated Cross-Attention and optical
flow guided inverted latents smoothing. Extensive experiments and applications
demonstrate that Ground-A-Video's zero-shot capacity outperforms other baseline
methods in terms of edit-accuracy and frame consistency. Further results and
codes are provided at our project page (http://ground-a-video.github.io).
- Abstract(参考訳): ビデオ編集における最近の取り組みは、テキストからビデオへのモデル(t2v)をテキストビデオデータでトレーニングするか、トレーニングフリーの方法を採用するかのどちらかで、単一属性の編集やスタイル転送タスクで有望な結果を示している。
しかし、多属性編集シナリオの複雑さに直面すると、意図した属性変更の省略や見落とし、入力ビデオの間違った要素の変更、入力ビデオの領域の保存の失敗といった欠点が現れる。
そこで本稿では,マルチアトリビュートビデオ編集のための新しいグラウンドガイド付きビデオからビデオへの翻訳フレームワークである ground-a-video を提案する。
ground-a-videoは、前述した欠点なく、トレーニングフリーで入力ビデオの時間的一貫性のあるマルチ属性編集を実現する。
本手法の中心となるクロスフレームゲート・アテンションの導入は,時間的に一貫性のある方法で,情報接地を潜在表現に組み込むとともに,変調されたクロスアテンションと光流誘導反転潜時平滑化を実現する。
広範囲な実験と応用により、グランド・ア・ビデオのゼロショットキャパシティは、編集精度とフレーム一貫性の観点から他のベースラインメソッドよりも優れていることが示されている。
さらなる結果とコードは、プロジェクトページ(http://ground-a-video.github.io)で提供されます。
関連論文リスト
- I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - StableVideo: Text-driven Consistency-aware Diffusion Video Editing [24.50933856309234]
拡散に基づく手法は、リアルな画像やビデオを生成することができるが、ビデオ内の既存のオブジェクトを編集するのに苦労し、その外観は時間の経過とともに保たれる。
本稿では、既存のテキスト駆動拡散モデルへの時間的依存を導入し、編集対象に対して一貫した外観を生成する。
我々は,この機構,すなわちStableVideoに基づくテキスト駆動のビデオ編集フレームワークを構築し,一貫性を意識したビデオ編集を実現する。
論文 参考訳(メタデータ) (2023-08-18T14:39:16Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。