論文の概要: Highly Detailed and Temporal Consistent Video Stylization via
Synchronized Multi-Frame Diffusion
- arxiv url: http://arxiv.org/abs/2311.14343v1
- Date: Fri, 24 Nov 2023 08:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:37:10.118980
- Title: Highly Detailed and Temporal Consistent Video Stylization via
Synchronized Multi-Frame Diffusion
- Title(参考訳): 同期多フレーム拡散による高精細・時間連続ビデオスティル化
- Authors: Minshan Xie, Hanyuan Liu, Chengze Li and Tien-Tsin Wong
- Abstract要約: テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。
既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。
視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.33952368534147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided video-to-video stylization transforms the visual appearance of a
source video to a different appearance guided on textual prompts. Existing
text-guided image diffusion models can be extended for stylized video
synthesis. However, they struggle to generate videos with both highly detailed
appearance and temporal consistency. In this paper, we propose a synchronized
multi-frame diffusion framework to maintain both the visual details and the
temporal consistency. Frames are denoised in a synchronous fashion, and more
importantly, information of different frames is shared since the beginning of
the denoising process. Such information sharing ensures that a consensus, in
terms of the overall structure and color distribution, among frames can be
reached in the early stage of the denoising process before it is too late. The
optical flow from the original video serves as the connection, and hence the
venue for information sharing, among frames. We demonstrate the effectiveness
of our method in generating high-quality and diverse results in extensive
experiments. Our method shows superior qualitative and quantitative results
compared to state-of-the-art video editing methods.
- Abstract(参考訳): テキストガイド付きビデオからビデオへのスタイライゼーションは、ソースビデオの視覚的な外観を、テキストプロンプトに基づいて異なる外観に変換する。
既存のテキスト誘導画像拡散モデルは、スタイリッシュなビデオ合成のために拡張することができる。
しかし、彼らは高精細な外観と時間的一貫性の両方でビデオを生成するのに苦労している。
本稿では,視覚的詳細と時間的一貫性を両立させる同期型マルチフレーム拡散フレームワークを提案する。
フレームは同期的にデノ化され、さらに重要なことに、デノ化プロセスの開始時から異なるフレームの情報が共有される。
このような情報共有によって、全体構造と色分布の観点から、フレーム間のコンセンサスが、遅すぎる前にデノナイジングプロセスの初期段階に到達できることが保証される。
オリジナルビデオからの光学的流れは接続として機能し、したがってフレーム間の情報共有の場となる。
本手法は,高品質で多種多様な実験結果を生成する際に有効であることを示す。
本手法は,最新の映像編集手法と比較して,質的,定量的に優れた結果を示す。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文 参考訳(メタデータ) (2024-05-09T12:06:06Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。