論文の概要: ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text
- arxiv url: http://arxiv.org/abs/2401.01456v3
- Date: Wed, 3 Jul 2024 04:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:13:45.357947
- Title: ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text
- Title(参考訳): ColorizeDiffusion: 参照画像とテキストによる調整可能なスケッチカラー化
- Authors: Dingkun Yan, Liang Yuan, Erwin Wu, Yuma Nishioka, Issei Fujishiro, Suguru Saito,
- Abstract要約: 事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
- 参考スコア(独自算出の注目度): 5.675944597452309
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have recently demonstrated their effectiveness in generating extremely high-quality images and are now utilized in a wide range of applications, including automatic sketch colorization. Although many methods have been developed for guided sketch colorization, there has been limited exploration of the potential conflicts between image prompts and sketch inputs, which can lead to severe deterioration in the results. Therefore, this paper exhaustively investigates reference-based sketch colorization models that aim to colorize sketch images using reference color images. We specifically investigate two critical aspects of reference-based diffusion models: the "distribution problem", which is a major shortcoming compared to text-based counterparts, and the capability in zero-shot sequential text-based manipulation. We introduce two variations of an image-guided latent diffusion model utilizing different image tokens from the pre-trained CLIP image encoder and propose corresponding manipulation methods to adjust their results sequentially using weighted text inputs. We conduct comprehensive evaluations of our models through qualitative and quantitative experiments as well as a user study.
- Abstract(参考訳): 拡散モデルは最近、非常に高品質な画像を生成することの有効性を実証し、現在、スケッチの自動色付けを含む広範囲のアプリケーションで利用されている。
スケッチカラー化のための多くの方法が開発されているが、画像プロンプトとスケッチ入力の間の潜在的な衝突について限定的な調査が行われており、その結果が大幅に劣化する可能性がある。
そこで本研究では,参照カラー画像を用いたスケッチ画像のカラー化を目的とした,参照ベースのスケッチカラー化モデルについて,徹底的に検討する。
具体的には、テキストベースの拡散モデルにおける「分散問題」と、ゼロショットシーケンシャルなテキストベースの操作能力の2つの重要な側面について検討する。
事前学習したCLIP画像エンコーダの異なる画像トークンを用いた画像誘導潜時拡散モデルの2つのバリエーションを導入し、重み付きテキスト入力を用いて結果を調整するための対応する操作法を提案する。
我々は,定性的かつ定量的な実験とユーザスタディを通じて,モデルの総合的な評価を行う。
関連論文リスト
- Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。
PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文 参考訳(メタデータ) (2022-10-20T12:28:31Z) - Detecting Recolored Image by Spatial Correlation [60.08643417333974]
画像のリカラー化は、画像の色値を操作して新しいスタイルを与える、新たな編集技術である。
本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。
提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。
論文 参考訳(メタデータ) (2022-04-23T01:54:06Z) - Generative Probabilistic Image Colorization [2.110198946293069]
本稿では,音の劣化の各ステップを逆転させる確率モデル列を訓練する拡散型生成法を提案する。
入力として線引き画像が与えられた場合、本手法は複数の候補色付き画像を提案する。
提案手法は,色条件の画像生成タスクだけでなく,実用的な画像補完や塗装タスクにも有効である。
論文 参考訳(メタデータ) (2021-09-29T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。