論文の概要: DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.01655v1
- Date: Thu, 3 Aug 2023 09:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 14:27:05.037597
- Title: DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models
- Title(参考訳): DiffColor:拡散モデルによる高忠実テキストガイド画像のカラー化に向けて
- Authors: Jianxin Lin, Peng Xiao, Yijun Wang, Rongju Zhang, Xiangxiang Zeng
- Abstract要約: そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
- 参考スコア(独自算出の注目度): 12.897939032560537
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent data-driven image colorization methods have enabled automatic or
reference-based colorization, while still suffering from unsatisfactory and
inaccurate object-level color control. To address these issues, we propose a
new method called DiffColor that leverages the power of pre-trained diffusion
models to recover vivid colors conditioned on a prompt text, without any
additional inputs. DiffColor mainly contains two stages: colorization with
generative color prior and in-context controllable colorization. Specifically,
we first fine-tune a pre-trained text-to-image model to generate colorized
images using a CLIP-based contrastive loss. Then we try to obtain an optimized
text embedding aligning the colorized image and the text prompt, and a
fine-tuned diffusion model enabling high-quality image reconstruction. Our
method can produce vivid and diverse colors with a few iterations, and keep the
structure and background intact while having colors well-aligned with the
target language guidance. Moreover, our method allows for in-context
colorization, i.e., producing different colorization results by modifying
prompt texts without any fine-tuning, and can achieve object-level controllable
colorization results. Extensive experiments and user studies demonstrate that
DiffColor outperforms previous works in terms of visual quality, color
fidelity, and diversity of colorization options.
- Abstract(参考訳): 最近のデータ駆動画像のカラー化手法は、不満足で不正確なオブジェクトレベルのカラー制御に苦しむ一方で、自動または参照ベースのカラー化を可能にしている。
これらの問題に対処するために,DiffColor という新しい手法を提案する。これは事前学習した拡散モデルのパワーを利用して,追加の入力を伴わずに,プロンプトテキストに条件付けされた鮮やかな色を復元する。
DiffColorは主に、生成色による色付けと、文脈内制御可能な色付けの2段階を含む。
具体的には,まず,事前学習したテキストから画像への変換モデルを微調整し,クリップベースのコントラスト損失を用いてカラー画像を生成する。
次に,カラー化画像とテキストプロンプトを整合させた最適化されたテキスト埋め込みと,高品質な画像再構成を可能にする微調整拡散モデルを得る。
本手法は,数回の反復で鮮やかで多彩な色を生成でき,対象言語ガイダンスとよく一致しながら構造や背景を維持できる。
さらに、本手法では、微調整なしでプロンプトテキストを変更して異なる色化結果を生成することができるため、オブジェクトレベルの制御可能な色化結果が得られる。
広範な実験とユーザー研究により、diffcolorは、視覚品質、色再現性、色付けオプションの多様性の観点から、以前の作品よりも優れていることが示されている。
関連論文リスト
- Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。
グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。
これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文 参考訳(メタデータ) (2024-04-08T16:46:07Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - MMC: Multi-Modal Colorization of Images using Textual Descriptions [22.666387184216678]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を受信し、関連する色成分を予測しようとするディープネットワークを提案する。
また、画像中の各オブジェクトを予測し、個々の記述で色付けし、それらの属性を色付けプロセスに組み込む。
提案手法は,LPIPS,PSNR,SSIMの指標を用いて,既存のカラー化手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-24T10:53:13Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。
各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。
提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-04T18:40:20Z) - Image Colorization: A Survey and Dataset [94.59768013860668]
本稿では,最先端の深層学習に基づく画像着色技術に関する包括的調査を行う。
既存の着色技法を7つのクラスに分類し、その性能を規定する重要な要因について論じる。
我々は既存のデータセットと提案した画像の両方を用いて、既存の画像のカラー化手法を広範囲に実験的に評価する。
論文 参考訳(メタデータ) (2020-08-25T01:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。