論文の概要: FateZero: Fusing Attentions for Zero-shot Text-based Video Editing
- arxiv url: http://arxiv.org/abs/2303.09535v1
- Date: Thu, 16 Mar 2023 17:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:19:29.574051
- Title: FateZero: Fusing Attentions for Zero-shot Text-based Video Editing
- Title(参考訳): FateZero:ゼロショットテキストベースのビデオ編集のための注意喚起
- Authors: Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying
Shan, Qifeng Chen
- Abstract要約: 本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
- 参考スコア(独自算出の注目度): 65.34908568881899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diffusion-based generative models have achieved remarkable success in
text-based image generation. However, since it contains enormous randomness in
generation progress, it is still challenging to apply such models for
real-world visual content editing, especially in videos. In this paper, we
propose FateZero, a zero-shot text-based editing method on real-world videos
without per-prompt training or use-specific mask. To edit videos consistently,
we propose several techniques based on the pre-trained models. Firstly, in
contrast to the straightforward DDIM inversion technique, our approach captures
intermediate attention maps during inversion, which effectively retain both
structural and motion information. These maps are directly fused in the editing
process rather than generated during denoising. To further minimize semantic
leakage of the source video, we then fuse self-attentions with a blending mask
obtained by cross-attention features from the source prompt. Furthermore, we
have implemented a reform of the self-attention mechanism in denoising UNet by
introducing spatial-temporal attention to ensure frame consistency. Yet
succinct, our method is the first one to show the ability of zero-shot
text-driven video style and local attribute editing from the trained
text-to-image model. We also have a better zero-shot shape-aware editing
ability based on the text-to-video model. Extensive experiments demonstrate our
superior temporal consistency and editing capability than previous works.
- Abstract(参考訳): 拡散に基づく生成モデルは、テキストベースの画像生成において顕著な成功を収めた。
しかし、生成の進行に膨大なランダム性があるため、実際のビジュアルコンテンツ編集、特にビデオにそのようなモデルを適用することは依然として困難である。
本稿では,実世界ビデオにおけるゼロショットテキストベースの編集手法であるfatezeroを提案する。
ビデオの編集を一貫して行うために,事前学習したモデルに基づく手法を提案する。
まず,直感的なDDIMインバージョンとは対照的に,本手法はインバージョン中の中間注目マップを捕捉し,構造情報と動作情報の両方を効果的に保持する。
これらのマップは、同期中に生成するのではなく、編集プロセスで直接融合される。
さらにソースビデオのセマンティックリークを最小限に抑えるため、ソースプロンプトからのクロスアテンション特徴から得られるブレンディングマスクと自己アテンションを融合する。
さらに,フレームの整合性を確保するために空間的時間的注意を導入することで,UNetの自己注意機構を改良した。
しかし,本手法は,訓練されたテキスト対画像モデルから,ゼロショットのテキスト駆動ビデオスタイルとローカル属性編集の能力を示す最初の手法である。
また,テキスト対ビデオモデルに基づくゼロショット形状認識編集能力も向上した。
広範な実験により,過去の作品よりも優れた時間的一貫性と編集能力が実証された。
関連論文リスト
- Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Text2LIVE: Text-Driven Layered Image and Video Editing [13.134513605107808]
自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
論文 参考訳(メタデータ) (2022-04-05T21:17:34Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。