論文の概要: Language-based Image Colorization: A Benchmark and Beyond
- arxiv url: http://arxiv.org/abs/2503.14974v1
- Date: Wed, 19 Mar 2025 08:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:37.683168
- Title: Language-based Image Colorization: A Benchmark and Beyond
- Title(参考訳): 言語ベースのイメージカラー化 - ベンチマークとそれを超えるもの
- Authors: Yifan Li, Shuai Yang, Jiaying Liu,
- Abstract要約: 画像の自動色付け手法は、色あいさによる高品質な画像の生成に苦慮している。
テキスト記述の効率性と柔軟性をフル活用して色付けを導くために,言語に基づく色付け手法を提案する。
これは、言語ベースの画像色付けフィールドに関する、初めての包括的なレビューとベンチマークである。
- 参考スコア(独自算出の注目度): 19.70668766997928
- License:
- Abstract: Image colorization aims to bring colors back to grayscale images. Automatic image colorization methods, which requires no additional guidance, struggle to generate high-quality images due to color ambiguity, and provides limited user controllability. Thanks to the emergency of cross-modality datasets and models, language-based colorization methods are proposed to fully utilize the efficiency and flexibly of text descriptions to guide colorization. In view of the lack of a comprehensive review of language-based colorization literature, we conduct a thorough analysis and benchmarking. We first briefly summarize existing automatic colorization methods. Then, we focus on language-based methods and point out their core challenge on cross-modal alignment. We further divide these methods into two categories: one attempts to train a cross-modality network from scratch, while the other utilizes the pre-trained cross-modality model to establish the textual-visual correspondence. Based on the analyzed limitations of existing language-based methods, we propose a simple yet effective method based on distilled diffusion model. Extensive experiments demonstrate that our simple baseline can produces better results than previous complex methods with 14 times speed up. To the best of our knowledge, this is the first comprehensive review and benchmark on language-based image colorization field, providing meaningful insights for the community. The code is available at https://github.com/lyf1212/Color-Turbo.
- Abstract(参考訳): 画像のカラー化は、グレースケールの画像に色を戻すことを目的としている。
追加のガイダンスを必要としない自動カラー化手法は、色あいまいさによる高品質な画像の生成に苦慮し、ユーザ制御性に制限を与えている。
クロスモーダルデータセットやモデルの緊急性により,テキスト記述の効率性と柔軟性をフル活用して色付けをガイドする言語ベースの色付け手法が提案されている。
言語に基づく色分け文献の包括的なレビューが欠如していることを踏まえ、徹底的な分析とベンチマークを行う。
まず,既存の自動着色法について概説する。
次に、言語ベースの手法に注目し、モーダル間のアライメントにおける彼らの中核的な課題を指摘する。
さらに、これらの手法を2つのカテゴリに分け、一方は、ゼロからモダリティネットワークをトレーニングし、他方は、事前学習されたモダリティモデルを用いて、テキストと視覚の対応を確立する。
既存の言語に基づく手法の分析限界に基づき,蒸留拡散モデルに基づく簡易かつ効果的な手法を提案する。
大規模な実験により、我々の単純なベースラインは14倍の速度で従来の複雑な手法よりも優れた結果が得られることが示された。
私たちの知る限りでは、これは言語ベースの画像カラー化フィールドに関する最初の包括的なレビューとベンチマークであり、コミュニティに意味のある洞察を与えています。
コードはhttps://github.com/lyf1212/Color-Turbo.comで公開されている。
関連論文リスト
- ColorEdit: Training-free Image-Guided Color editing with diffusion model [23.519884152019642]
画像編集タスクにはテキスト・ツー・イメージ(T2I)拡散モデルが採用されており、顕著な有効性を示している。
しかし, テキストプロンプトから, 物体のクロスアテンションマップと新たな色属性との衝突や注意漏れにより, テキスト誘導画像編集法では物体の色が変化しない可能性がある。
本稿では,物体の色を微調整や訓練を必要とせず,手軽で安定的で効果的な画像誘導手法を提案する。
論文 参考訳(メタデータ) (2024-11-15T14:45:58Z) - Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。
グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。
これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文 参考訳(メタデータ) (2024-04-08T16:46:07Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - Color2Style: Real-Time Exemplar-Based Image Colorization with
Self-Reference Learning and Deep Feature Modulation [29.270149925368674]
色を鮮やかな色で満たしてグレースケールの画像媒体を復活させるため,カラーカラー化手法としてColor2Styleを提案する。
提案手法は,参照画像から抽出した色埋め込みを入力されたグレースケール画像の深部表現に注入する,単純だが効果的な深部特徴変調(DFM)モジュールを利用する。
論文 参考訳(メタデータ) (2021-06-15T10:05:58Z) - Image Colorization: A Survey and Dataset [94.59768013860668]
本稿では,最先端の深層学習に基づく画像着色技術に関する包括的調査を行う。
既存の着色技法を7つのクラスに分類し、その性能を規定する重要な要因について論じる。
我々は既存のデータセットと提案した画像の両方を用いて、既存の画像のカラー化手法を広範囲に実験的に評価する。
論文 参考訳(メタデータ) (2020-08-25T01:22:52Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。