論文の概要: ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image
and Text
- arxiv url: http://arxiv.org/abs/2401.01456v1
- Date: Tue, 2 Jan 2024 22:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:48:15.395292
- Title: ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image
and Text
- Title(参考訳): ColorizeDiffusion: 参照画像とテキストによる調整可能なスケッチカラー化
- Authors: Dingkun Yan, Liang Yuan, Yuma Nishioka, Issei Fujishiro, Suguru Saito
- Abstract要約: 本稿では,画像誘導モデル,特に参照ベーススケッチのカラー化を対象とし,徹底的に検討する。
事前学習したCLIP画像エンコーダの異なる画像トークンを用いた画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
- 参考スコア(独自算出の注目度): 3.3150558088915445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, diffusion models have demonstrated their effectiveness in
generating extremely high-quality images and have found wide-ranging
applications, including automatic sketch colorization. However, most existing
models use text to guide the conditional generation, with fewer attempts
exploring the potential advantages of using image tokens as conditional inputs
for networks. As such, this paper exhaustively investigates image-guided
models, specifically targeting reference-based sketch colorization, which aims
to colorize sketch images using reference color images. We investigate three
critical aspects of reference-based diffusion models: the shortcomings compared
to text-based counterparts, the training strategies, and the capability in
zero-shot, sequential text-based manipulation. We introduce two variations of
an image-guided latent diffusion model using different image tokens from the
pre-trained CLIP image encoder, and we propose corresponding manipulation
methods to adjust their results sequentially using weighted text inputs. We
conduct comprehensive evaluations of our models through qualitative and
quantitative experiments, as well as a user study.
- Abstract(参考訳): 近年, 拡散モデルによる高画質画像生成の有効性が実証され, 自動スケッチ色化など広範囲の応用が見出されている。
しかし、既存のほとんどのモデルは、条件生成を導くためにテキストを使用し、ネットワークの条件入力として画像トークンを使用する潜在的な利点を探求する試みは少ない。
そこで本稿では,参照カラー画像を用いてスケッチ画像をカラー化することを目的とした,参照ベースのスケッチカラー化を対象とする画像誘導モデルについて徹底的に検討する。
参照ベース拡散モデルの3つの重要な側面について検討した。テキストベース拡散モデルの欠点、トレーニング戦略、ゼロショット・シーケンシャルテキストベース操作の能力である。
トレーニング済みのCLIP画像エンコーダの異なる画像トークンを用いた画像誘導潜時拡散モデルの2つのバリエーションを導入し、重み付きテキスト入力を用いて結果を調整するための対応する操作法を提案する。
我々は,定性的かつ定量的な実験とユーザスタディを通じて,モデルの総合的な評価を行う。
関連論文リスト
- Test-time Conditional Text-to-Image Synthesis Using Diffusion Models [15.24270990274781]
TINTIN: Diffusion Modelsを用いたテスト時条件テキスト画像合成は、新しいトレーニング不要なテスト時のみのアルゴリズムである。
質的にも定量的にも、現在の最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-16T13:32:18Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。
PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文 参考訳(メタデータ) (2022-10-20T12:28:31Z) - Detecting Recolored Image by Spatial Correlation [60.08643417333974]
画像のリカラー化は、画像の色値を操作して新しいスタイルを与える、新たな編集技術である。
本稿では,空間相関の観点から,従来型と深層学習による再色検出の汎用的検出能力を示す解を探索する。
提案手法は,複数のベンチマークデータセット上での最先端検出精度を実現し,未知の種類の再色法を適切に一般化する。
論文 参考訳(メタデータ) (2022-04-23T01:54:06Z) - Generative Probabilistic Image Colorization [2.110198946293069]
本稿では,音の劣化の各ステップを逆転させる確率モデル列を訓練する拡散型生成法を提案する。
入力として線引き画像が与えられた場合、本手法は複数の候補色付き画像を提案する。
提案手法は,色条件の画像生成タスクだけでなく,実用的な画像補完や塗装タスクにも有効である。
論文 参考訳(メタデータ) (2021-09-29T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。