論文の概要: Video Colorization with Pre-trained Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.01732v1
- Date: Fri, 2 Jun 2023 17:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:44:21.897370
- Title: Video Colorization with Pre-trained Text-to-Image Diffusion Models
- Title(参考訳): 事前学習したテキスト・画像拡散モデルによる映像のカラー化
- Authors: Hanyuan Liu, Minshan Xie, Jinbo Xing, Chengze Li, Tien-Tsin Wong
- Abstract要約: ビデオカラー化のための事前訓練されたテキストから画像への潜時拡散モデルの適応であるColorDiffuserを提案する。
本稿では,時間的コヒーレンスを高め,フレーム間の色付けの鮮明さを維持するための2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 19.807766482434563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video colorization is a challenging task that involves inferring plausible
and temporally consistent colors for grayscale frames. In this paper, we
present ColorDiffuser, an adaptation of a pre-trained text-to-image latent
diffusion model for video colorization. With the proposed adapter-based
approach, we repropose the pre-trained text-to-image model to accept input
grayscale video frames, with the optional text description, for video
colorization. To enhance the temporal coherence and maintain the vividness of
colorization across frames, we propose two novel techniques: the Color
Propagation Attention and Alternated Sampling Strategy. Color Propagation
Attention enables the model to refine its colorization decision based on a
reference latent frame, while Alternated Sampling Strategy captures
spatiotemporal dependencies by using the next and previous adjacent latent
frames alternatively as reference during the generative diffusion sampling
steps. This encourages bidirectional color information propagation between
adjacent video frames, leading to improved color consistency across frames. We
conduct extensive experiments on benchmark datasets, and the results
demonstrate the effectiveness of our proposed framework. The evaluations show
that ColorDiffuser achieves state-of-the-art performance in video colorization,
surpassing existing methods in terms of color fidelity, temporal consistency,
and visual quality.
- Abstract(参考訳): ビデオのカラー化は、グレースケールフレームに対して可塑性および時間的に一貫した色を推測する難しい作業である。
本稿では,ビデオカラー化のための事前学習されたテキストから画像への潜時拡散モデルであるColorDiffuserを提案する。
提案手法では,事前学習したテキスト・ツー・イメージ・モデルを用いて,入力グレースケールの動画フレームを受け入れ,オプションのテキスト記述で映像のカラー化を行う。
フレーム間の色分けの鮮度を維持するために,色伝播注意と交互サンプリング戦略という2つの新しい手法を提案する。
カラー伝搬注意(Color Propagation Attention)により、参照潜在フレームに基づいてカラー化決定を洗練できる一方、Alternated Smpling Strategyは、生成拡散サンプリングステップにおいて、次のおよび以前の隣接潜在フレームを基準として、時空間依存性をキャプチャする。
これにより、隣接するビデオフレーム間の双方向カラー情報伝搬が促進され、フレーム間の色一貫性が向上する。
ベンチマークデータセットについて広範な実験を行い,提案手法の有効性を実証した。
評価の結果,カラーディフューザはカラー忠実度,時間的一貫性,視覚品質の点で既存の手法を上回って,映像のカラー化において最先端のパフォーマンスを達成していることがわかった。
関連論文リスト
- Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文 参考訳(メタデータ) (2024-05-09T12:06:06Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Improving Video Colorization by Test-Time Tuning [79.67548221384202]
テスト時間チューニングによる映像の着色性向上を目的とした,効果的な手法を提案する。
提案手法は,テスト中に追加のトレーニングサンプルを構築するための基準を利用して,PSNRにおいて平均13dBの性能向上を実現している。
論文 参考訳(メタデータ) (2023-06-25T05:36:40Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - FlowChroma -- A Deep Recurrent Neural Network for Video Colorization [1.0499611180329804]
フレーム間の色合いを最小限に抑える自動ビデオカラー化フレームワークを開発した。
ビデオのカラー化における色一貫性向上のために、繰り返しニューラルネットワークをうまく利用できることが示される。
論文 参考訳(メタデータ) (2023-05-23T05:41:53Z) - Temporal Consistent Automatic Video Colorization via Semantic
Correspondence [12.107878178519128]
本稿では,セマンティック対応と自動ビデオカラー化を組み合わせた新しい映像カラー化フレームワークを提案する。
NTIRE 2023ビデオカラー化チャレンジでは,色分布一貫性(CDC)最適化トラックで3位にランクインした。
論文 参考訳(メタデータ) (2023-05-13T12:06:09Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - Temporally Consistent Video Colorization with Deep Feature Propagation
and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。
TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。
実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T13:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。