論文の概要: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17599v2
- Date: Thu, 13 Apr 2023 07:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:56:24.704862
- Title: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
- Title(参考訳): オフザシェルフ画像拡散モデルを用いたゼロショット映像編集
- Authors: Wen Wang, Kangyang Xie, Zide Liu, Hao Chen, Yue Cao, Xinlong Wang,
Chunhua Shen
- Abstract要約: ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
- 参考スコア(独自算出の注目度): 78.1850708245709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image diffusion models achieve unprecedented success in
image generation and editing. However, how to extend such success to video
editing is unclear. Recent initial attempts at video editing require
significant text-to-video data and computation resources for training, which is
often not accessible. In this work, we propose vid2vid-zero, a simple yet
effective method for zero-shot video editing. Our vid2vid-zero leverages
off-the-shelf image diffusion models, and doesn't require training on any
video. At the core of our method is a null-text inversion module for
text-to-video alignment, a cross-frame modeling module for temporal
consistency, and a spatial regularization module for fidelity to the original
video. Without any training, we leverage the dynamic nature of the attention
mechanism to enable bi-directional temporal modeling at test time. Experiments
and analyses show promising results in editing attributes, subjects, places,
etc., in real-world videos. Code is made available at
\url{https://github.com/baaivision/vid2vid-zero}.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。
しかし、このような成功をビデオ編集に拡張する方法は不明である。
ビデオ編集の初期の試みでは、大量のテキストからビデオへのデータと、訓練のための計算リソースが必要だった。
本研究では,ゼロショット映像編集のための簡易かつ効果的な手法であるvid2vid-zeroを提案する。
私たちのvid2vid-zeroは、既製の画像拡散モデルを活用しています。
提案手法の核心は,テキスト間アライメントのためのヌルテキストインバージョンモジュール,時間的一貫性のためのクロスフレームモデリングモジュール,オリジナルビデオへの忠実性のための空間正規化モジュールである。
トレーニングがなければ、アテンション機構の動的な性質を利用して、テスト時に双方向のテンポラリモデリングを可能にします。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
コードは \url{https://github.com/baaivision/vid2vid-zero} で利用可能である。
関連論文リスト
- Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices [19.07572422897737]
Sliceditは、事前訓練されたT2I拡散モデルを用いて、空間スライスと時間スライスの両方を処理するテキストベースのビデオ編集方法である。
本手法は,対象のテキストに付着しながら,オリジナル映像の構造と動きを保持するビデオを生成する。
論文 参考訳(メタデータ) (2024-05-20T17:55:56Z) - Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。
現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:40:01Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - TokenFlow: Consistent Diffusion Features for Consistent Video Editing [27.736354114287725]
本稿では,テキスト駆動ビデオ編集作業において,テキスト間拡散モデルのパワーを利用するフレームワークを提案する。
提案手法は,入力ビデオの空間的レイアウトと動きを保ちながら,ターゲットテキストに付着した高品質な映像を生成する。
我々のフレームワークは、トレーニングや微調整を一切必要とせず、市販のテキスト・ツー・イメージ編集手法と連携して動作する。
論文 参考訳(メタデータ) (2023-07-19T18:00:03Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。