論文の概要: FateZero: Fusing Attentions for Zero-shot Text-based Video Editing
- arxiv url: http://arxiv.org/abs/2303.09535v3
- Date: Wed, 11 Oct 2023 17:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:52:33.158753
- Title: FateZero: Fusing Attentions for Zero-shot Text-based Video Editing
- Title(参考訳): FateZero:ゼロショットテキストベースのビデオ編集のための注意喚起
- Authors: Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying
Shan, Qifeng Chen
- Abstract要約: 本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
- 参考スコア(独自算出の注目度): 104.27329655124299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diffusion-based generative models have achieved remarkable success in
text-based image generation. However, since it contains enormous randomness in
generation progress, it is still challenging to apply such models for
real-world visual content editing, especially in videos. In this paper, we
propose FateZero, a zero-shot text-based editing method on real-world videos
without per-prompt training or use-specific mask. To edit videos consistently,
we propose several techniques based on the pre-trained models. Firstly, in
contrast to the straightforward DDIM inversion technique, our approach captures
intermediate attention maps during inversion, which effectively retain both
structural and motion information. These maps are directly fused in the editing
process rather than generated during denoising. To further minimize semantic
leakage of the source video, we then fuse self-attentions with a blending mask
obtained by cross-attention features from the source prompt. Furthermore, we
have implemented a reform of the self-attention mechanism in denoising UNet by
introducing spatial-temporal attention to ensure frame consistency. Yet
succinct, our method is the first one to show the ability of zero-shot
text-driven video style and local attribute editing from the trained
text-to-image model. We also have a better zero-shot shape-aware editing
ability based on the text-to-video model. Extensive experiments demonstrate our
superior temporal consistency and editing capability than previous works.
- Abstract(参考訳): 拡散に基づく生成モデルは、テキストベースの画像生成において顕著な成功を収めた。
しかし、生成の進行に膨大なランダム性があるため、実際のビジュアルコンテンツ編集、特にビデオにそのようなモデルを適用することは依然として困難である。
本稿では,実世界ビデオにおけるゼロショットテキストベースの編集手法であるfatezeroを提案する。
ビデオの編集を一貫して行うために,事前学習したモデルに基づく手法を提案する。
まず,直感的なDDIMインバージョンとは対照的に,本手法はインバージョン中の中間注目マップを捕捉し,構造情報と動作情報の両方を効果的に保持する。
これらのマップは、同期中に生成するのではなく、編集プロセスで直接融合される。
さらにソースビデオのセマンティックリークを最小限に抑えるため、ソースプロンプトからのクロスアテンション特徴から得られるブレンディングマスクと自己アテンションを融合する。
さらに,フレームの整合性を確保するために空間的時間的注意を導入することで,UNetの自己注意機構を改良した。
しかし,本手法は,訓練されたテキスト対画像モデルから,ゼロショットのテキスト駆動ビデオスタイルとローカル属性編集の能力を示す最初の手法である。
また,テキスト対ビデオモデルに基づくゼロショット形状認識編集能力も向上した。
広範な実験により,過去の作品よりも優れた時間的一貫性と編集能力が実証された。
関連論文リスト
- Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices [19.07572422897737]
Sliceditは、事前訓練されたT2I拡散モデルを用いて、空間スライスと時間スライスの両方を処理するテキストベースのビデオ編集方法である。
本手法は,対象のテキストに付着しながら,オリジナル映像の構造と動きを保持するビデオを生成する。
論文 参考訳(メタデータ) (2024-05-20T17:55:56Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。