論文の概要: LVCD: Reference-based Lineart Video Colorization with Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.12960v1
- Date: Thu, 19 Sep 2024 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.774907
- Title: LVCD: Reference-based Lineart Video Colorization with Diffusion Models
- Title(参考訳): LVCD:拡散モデルを用いた参照型リニアアート映像のカラー化
- Authors: Zhitong Huang, Mohan Zhang, Jing Liao,
- Abstract要約: 参照型リニアトビデオのカラー化のための第1のビデオ拡散フレームワークを提案する。
我々は、大規模な事前学習ビデオ拡散モデルを利用して、カラー化されたアニメーションビデオを生成する。
提案手法は高品質で長時間の時間一貫性のあるアニメーションビデオを生成することができる。
- 参考スコア(独自算出の注目度): 18.0983825973013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the first video diffusion framework for reference-based lineart video colorization. Unlike previous works that rely solely on image generative models to colorize lineart frame by frame, our approach leverages a large-scale pretrained video diffusion model to generate colorized animation videos. This approach leads to more temporally consistent results and is better equipped to handle large motions. Firstly, we introduce Sketch-guided ControlNet which provides additional control to finetune an image-to-video diffusion model for controllable video synthesis, enabling the generation of animation videos conditioned on lineart. We then propose Reference Attention to facilitate the transfer of colors from the reference frame to other frames containing fast and expansive motions. Finally, we present a novel scheme for sequential sampling, incorporating the Overlapped Blending Module and Prev-Reference Attention, to extend the video diffusion model beyond its original fixed-length limitation for long video colorization. Both qualitative and quantitative results demonstrate that our method significantly outperforms state-of-the-art techniques in terms of frame and video quality, as well as temporal consistency. Moreover, our method is capable of generating high-quality, long temporal-consistent animation videos with large motions, which is not achievable in previous works. Our code and model are available at https://luckyhzt.github.io/lvcd.
- Abstract(参考訳): 参照型リニアトビデオのカラー化のための第1のビデオ拡散フレームワークを提案する。
フレームごとの線形フレームのカラー化に画像生成モデルのみを頼っていた従来の作品とは異なり,本手法では大規模事前学習映像拡散モデルを用いてカラー化アニメーション映像を生成する。
このアプローチは、より時間的に一貫した結果をもたらし、大きな動きを扱うのにより適している。
まず,Sketch-guided ControlNetを導入することで,映像間の拡散モデルを微調整し,リニアトに条件付きアニメーション映像を生成する。
そこで我々は,参照フレームから高速かつ拡張的な動きを含む他のフレームへの色移動を容易にするために,参照注意を提案する。
最後に,オーバーラップしたBlending ModuleとPrev-Reference Attentionを組み込んだシーケンシャルサンプリング手法を提案する。
定性的かつ定量的な結果から,本手法は時間的整合性だけでなく,フレーム品質や映像品質の面で,最先端技術よりも優れていたことが示唆された。
さらに,本手法は,従来の作品では実現不可能な大きな動きを持つ高品質で長時間の時間一貫性のあるアニメーションビデオを生成することができる。
私たちのコードとモデルはhttps://luckyhzt.github.io/lvcd.comで公開されています。
関連論文リスト
- Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文 参考訳(メタデータ) (2024-05-09T12:06:06Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。