論文の概要: L-C4: Language-Based Video Colorization for Creative and Consistent Color
- arxiv url: http://arxiv.org/abs/2410.04972v2
- Date: Sun, 3 Nov 2024 09:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 14:50:13.463780
- Title: L-C4: Language-Based Video Colorization for Creative and Consistent Color
- Title(参考訳): L-C4:Creative and Consistent Colorのための言語ベースのビデオカラー化
- Authors: Zheng Chang, Shuchen Weng, Huan Ouyang, Yu Li, Si Li, Boxin Shi,
- Abstract要約: 創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
- 参考スコア(独自算出の注目度): 59.069498113050436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic video colorization is inherently an ill-posed problem because each monochrome frame has multiple optional color candidates. Previous exemplar-based video colorization methods restrict the user's imagination due to the elaborate retrieval process. Alternatively, conditional image colorization methods combined with post-processing algorithms still struggle to maintain temporal consistency. To address these issues, we present Language-based video Colorization for Creative and Consistent Colors (L-C4) to guide the colorization process using user-provided language descriptions. Our model is built upon a pre-trained cross-modality generative model, leveraging its comprehensive language understanding and robust color representation abilities. We introduce the cross-modality pre-fusion module to generate instance-aware text embeddings, enabling the application of creative colors. Additionally, we propose temporally deformable attention to prevent flickering or color shifts, and cross-clip fusion to maintain long-term color consistency. Extensive experimental results demonstrate that L-C4 outperforms relevant methods, achieving semantically accurate colors, unrestricted creative correspondence, and temporally robust consistency.
- Abstract(参考訳): 各モノクロフレームには複数のカラー候補が存在するため、ビデオの自動着色は本質的に不適切な問題である。
従来型のビデオカラー化手法では,精巧な検索プロセスによるユーザの想像力を制限していた。
あるいは、条件付き画像のカラー化手法と後処理アルゴリズムを組み合わせることで、時間的一貫性を維持するのに依然として苦労している。
これらの問題に対処するために、ユーザが提供する言語記述を用いて色付けプロセスのガイドを行うために、L-C4(Language-based video Colorization for Creative and Consistent Colors)を提案する。
我々のモデルは、その包括的言語理解とロバストな色表現能力を活用して、事前訓練されたクロスモダリティ生成モデルに基づいて構築されている。
我々は、インスタンス対応のテキスト埋め込みを生成するために、クロスモダリティプリフュージョンモジュールを導入し、クリエイティブカラーの適用を可能にした。
さらに,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期の色の整合性を維持するためにクロスクリップ融合を提案する。
大規模な実験の結果、L-C4は関連する手法より優れており、意味的に正確な色、制約のない創造的対応、時間的に堅牢な一貫性を実現している。
関連論文リスト
- Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - LatentColorization: Latent Diffusion-Based Speaker Video Colorization [1.2641141743223379]
ビデオのカラー化における時間的一貫性を実現するための新しいソリューションを提案する。
既存の手法と比較して,確立された画像品質指標の大幅な改善を示す。
我々のデータセットは、テレビ/映画からの従来のデータセットとビデオの組み合わせを含んでいる。
論文 参考訳(メタデータ) (2024-05-09T12:06:06Z) - Learning Inclusion Matching for Animation Paint Bucket Colorization [76.4507878427755]
ネットワークにセグメント間の包摂関係を理解するための,学習に基づく新たな包摂的マッチングパイプラインを導入する。
提案手法では,粗いカラーワープモジュールと包括的マッチングモジュールを統合した2段階のパイプラインを特徴とする。
ネットワークのトレーニングを容易にするため,PaintBucket-Characterと呼ばれるユニークなデータセットも開発した。
論文 参考訳(メタデータ) (2024-03-27T08:32:48Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Video Colorization with Pre-trained Text-to-Image Diffusion Models [19.807766482434563]
ビデオカラー化のための事前訓練されたテキストから画像への潜時拡散モデルの適応であるColorDiffuserを提案する。
本稿では,時間的コヒーレンスを高め,フレーム間の色付けの鮮明さを維持するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T17:58:00Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - Temporally Consistent Video Colorization with Deep Feature Propagation
and Self-regularization Learning [90.38674162878496]
時間的に一貫した新しいビデオカラー化フレームワーク(TCVC)を提案する。
TCVCは、フレームレベルの深い特徴を双方向的に効果的に伝播し、色付けの時間的一貫性を高める。
実験により,本手法は視覚的に満足な色付きビデオを得るだけでなく,最先端の手法よりも時間的整合性が得られることが示された。
論文 参考訳(メタデータ) (2021-10-09T13:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。