論文の概要: Edit Temporal-Consistent Videos with Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.09091v2
- Date: Sat, 30 Dec 2023 04:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:59:50.066264
- Title: Edit Temporal-Consistent Videos with Image Diffusion Model
- Title(参考訳): 画像拡散モデルによる時間整合映像の編集
- Authors: Yuanzhi Wang, Yong Li, Xiaoya Zhang, Xin Liu, Anbo Dai, Antoni B.
Chan, Zhen Cui
- Abstract要約: 大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.88186997567138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image (T2I) diffusion models have been extended for
text-guided video editing, yielding impressive zero-shot video editing
performance. Nonetheless, the generated videos usually show spatial
irregularities and temporal inconsistencies as the temporal characteristics of
videos have not been faithfully modeled. In this paper, we propose an elegant
yet effective Temporal-Consistent Video Editing (TCVE) method to mitigate the
temporal inconsistency challenge for robust text-guided video editing. In
addition to the utilization of a pretrained T2I 2D Unet for spatial content
manipulation, we establish a dedicated temporal Unet architecture to faithfully
capture the temporal coherence of the input video sequences. Furthermore, to
establish coherence and interrelation between the spatial-focused and
temporal-focused components, a cohesive spatial-temporal modeling unit is
formulated. This unit effectively interconnects the temporal Unet with the
pretrained 2D Unet, thereby enhancing the temporal consistency of the generated
videos while preserving the capacity for video content manipulation.
Quantitative experimental results and visualization results demonstrate that
TCVE achieves state-of-the-art performance in both video temporal consistency
and video editing capability, surpassing existing benchmarks in the field.
- Abstract(参考訳): 大規模なテキスト・ツー・イメージ(T2I)拡散モデルが拡張され、動画編集性能が向上した。
それでも、生成されたビデオは、ビデオの時間的特性が忠実にモデル化されていないため、通常、空間的不規則性と時間的不整合を示す。
本稿では,頑健なテキストガイド付き映像編集における時間的不整合を軽減すべく,エレガントかつ効果的な時間整合ビデオ編集(tcve)手法を提案する。
空間コンテンツ操作のための事前学習されたt2i 2d unetの活用に加えて,入力映像列の時間的コヒーレンスを忠実に捉えるための専用の時間的unetアーキテクチャを構築した。
さらに、空間焦点成分と時間焦点成分とのコヒーレンス及び相互関係を確立するために、コヒーシブな空間時間モデリングユニットを定式化する。
このユニットは、事前訓練された2d unetと時間的unetを効果的に相互接続し、ビデオコンテンツ操作能力を維持しつつ、生成されたビデオの時間的一貫性を高める。
定量的な実験結果と可視化結果から,TCVEはビデオ時間的一貫性とビデオ編集能力の両方において,現場の既存のベンチマークを超越して最先端のパフォーマンスを達成できることを示した。
関連論文リスト
- VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文 参考訳(メタデータ) (2023-06-03T06:29:02Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。