論文の概要: Edit Temporal-Consistent Videos with Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.09091v1
- Date: Thu, 17 Aug 2023 16:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:55:12.511034
- Title: Edit Temporal-Consistent Videos with Image Diffusion Model
- Title(参考訳): 画像拡散モデルによる時間整合映像の編集
- Authors: Yuanzhi Wang, Yong Li, Xin Liu, Anbo Dai, Antoni Chan, Zhen Cui
- Abstract要約: 大規模なテキスト・ツー・イメージ(T2I)拡散モデルが拡張され、テキストガイドによる動画編集が可能になった。
しかしながら、生成されたビデオは、ビデオの時間的特性が忠実にモデル化されていないため、通常、空間的不規則性と時間的不整合を示す。
本稿では,高機能なテキスト誘導ビデオ編集における時間的不整合性を軽減するため,エレガントで効果的な時間的一貫性ビデオ編集手法を提案する。
- 参考スコア(独自算出の注目度): 19.00373954096902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image (T2I) diffusion models have been extended for
text-guided video editing, yielding impressive zero-shot video editing
performance. Nonetheless, the generated videos usually show spatial
irregularities and temporal inconsistencies as the temporal characteristics of
videos have not been faithfully modeled. In this paper, we propose an elegant
yet effective Temporal-Consistent Video Editing (TCVE) method, to mitigate the
temporal inconsistency challenge for robust text-guided video editing. In
addition to the utilization of a pretrained 2D Unet for spatial content
manipulation, we establish a dedicated temporal Unet architecture to faithfully
capture the temporal coherence of the input video sequences. Furthermore, to
establish coherence and interrelation between the spatial-focused and
temporal-focused components, a cohesive joint spatial-temporal modeling unit is
formulated. This unit effectively interconnects the temporal Unet with the
pretrained 2D Unet, thereby enhancing the temporal consistency of the generated
video output while simultaneously preserving the capacity for video content
manipulation. Quantitative experimental results and visualization results
demonstrate that TCVE achieves state-of-the-art performance in both video
temporal consistency and video editing capability, surpassing existing
benchmarks in the field.
- Abstract(参考訳): 大規模なテキスト・ツー・イメージ(T2I)拡散モデルが拡張され、動画編集性能が向上した。
それでも、生成されたビデオは、ビデオの時間的特性が忠実にモデル化されていないため、通常、空間的不規則性と時間的不整合を示す。
本稿では,頑健なテキスト誘導ビデオ編集における時間的不整合を緩和する,エレガントで効果的な時間的一貫性ビデオ編集手法を提案する。
空間コンテンツ操作のための事前学習された2次元unetの活用に加えて,入力映像列の時間的コヒーレンスを忠実に捉えるための専用の時間的unetアーキテクチャを構築した。
さらに、空間焦点成分と時間焦点成分とのコヒーレンス及び相互関係を確立するために、コヒーシブジョイント空間時間モデリングユニットを定式化する。
このユニットは、予め訓練された2d unetと時間的unetを効果的に相互接続し、生成されたビデオ出力の時間的一貫性を向上し、同時にビデオコンテンツ操作能力を保持する。
定量的な実験結果と可視化結果から,TCVEはビデオ時間的一貫性とビデオ編集能力の両方において,現場の既存のベンチマークを超越して最先端のパフォーマンスを達成できることを示した。
関連論文リスト
- VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文 参考訳(メタデータ) (2023-06-03T06:29:02Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。