論文の概要: EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing
- arxiv url: http://arxiv.org/abs/2403.16111v1
- Date: Sun, 24 Mar 2024 12:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:35:42.941905
- Title: EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing
- Title(参考訳): EVA: ゼロショット精度属性とマルチオブジェクトビデオ編集
- Authors: Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang,
- Abstract要約: 現在のビデオ編集方法は、元のレイアウトを維持しながら、前景と背景を同時に編集することができない。
複雑な動きを持つ人間中心のビデオに合わせた、textbfzero-shot と textbfmulti-attribute ビデオ編集フレームワークである EVA を紹介する。
EVAは、複数のオブジェクトの編集シナリオに容易に一般化でき、正確なIDマッピングを実現する。
- 参考スコア(独自算出の注目度): 62.15822650722473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current diffusion-based video editing primarily focuses on local editing (\textit{e.g.,} object/background editing) or global style editing by utilizing various dense correspondences. However, these methods often fail to accurately edit the foreground and background simultaneously while preserving the original layout. We find that the crux of the issue stems from the imprecise distribution of attention weights across designated regions, including inaccurate text-to-attribute control and attention leakage. To tackle this issue, we introduce EVA, a \textbf{zero-shot} and \textbf{multi-attribute} video editing framework tailored for human-centric videos with complex motions. We incorporate a Spatial-Temporal Layout-Guided Attention mechanism that leverages the intrinsic positive and negative correspondences of cross-frame diffusion features. To avoid attention leakage, we utilize these correspondences to boost the attention scores of tokens within the same attribute across all video frames while limiting interactions between tokens of different attributes in the self-attention layer. For precise text-to-attribute manipulation, we use discrete text embeddings focused on specific layout areas within the cross-attention layer. Benefiting from the precise attention weight distribution, EVA can be easily generalized to multi-object editing scenarios and achieves accurate identity mapping. Extensive experiments demonstrate EVA achieves state-of-the-art results in real-world scenarios. Full results are provided at https://knightyxp.github.io/EVA/
- Abstract(参考訳): 現在の拡散ベースのビデオ編集は、主に局所的な編集(\textit{e g ,} オブジェクト/バックグラウンド編集)や、様々な密接な対応を利用してグローバルなスタイルの編集に焦点を当てている。
しかし、これらの手法は、元のレイアウトを維持しながら、前景と背景を同時に正確に編集することができないことが多い。
問題の原因は,不正確なテキスト・ツー・アトリビュート制御やアテンション・リークなど,特定領域にまたがる注意重みの不正確な分布に起因する。
この問題に対処するために,複雑な動きを持つ人間中心ビデオに適した,EVA, \textbf{zero-shot} および \textbf{multi-attribute} ビデオ編集フレームワークを紹介する。
クロスフレーム拡散特性の固有正および負の対応性を利用する空間時間レイアウト誘導注意機構を組み込んだ。
注意漏洩を避けるため,これらの対応を利用して,すべてのビデオフレームにまたがる同一属性内のトークンの注意スコアを向上するとともに,自己注意層内の異なる属性のトークン間の相互作用を制限する。
正確にテキスト・ツー・アトリビュート操作を行うには、クロスアテンション層内の特定のレイアウト領域に焦点を当てた個別のテキスト埋め込みを使用する。
EVAは、正確な注意重み分布から、多目的編集シナリオに容易に一般化でき、正確なIDマッピングを実現することができる。
大規模な実験は、EVAが現実世界のシナリオで最先端の結果を達成することを実証している。
完全な結果はhttps://knightyxp.github.io/EVA/で提供される。
関連論文リスト
- Compositional Video Generation as Flow Equalization [72.88137795439407]
大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。
有望な結果にもかかわらず、これらのモデルは複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。
我々は、すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための一般的なフレームワークであるbftextVicoを紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:27:47Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Face Attribute Editing with Disentangled Latent Vectors [0.0]
顔属性編集のための画像から画像への変換フレームワークを提案する。
固定事前学習されたGANの潜在空間因子化作業にインスパイアされ、潜在空間因子化による属性編集を設計する。
意味的に整理された潜在空間に画像を投影するために,注意に基づくスキップ接続を備えたエンコーダデコーダアーキテクチャを構築した。
論文 参考訳(メタデータ) (2023-01-11T18:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。