論文の概要: Improved Diffusion-based Image Colorization via Piggybacked Models
- arxiv url: http://arxiv.org/abs/2304.11105v1
- Date: Fri, 21 Apr 2023 16:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:06:50.270423
- Title: Improved Diffusion-based Image Colorization via Piggybacked Models
- Title(参考訳): ピギーバックモデルによる拡散画像のカラー化の改良
- Authors: Hanyuan Liu, Jinbo Xing, Minshan Xie, Chengze Li, Tien-Tsin Wong
- Abstract要約: 既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
- 参考スコア(独自算出の注目度): 19.807766482434563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image colorization has been attracting the research interests of the
community for decades. However, existing methods still struggle to provide
satisfactory colorized results given grayscale images due to a lack of
human-like global understanding of colors. Recently, large-scale Text-to-Image
(T2I) models have been exploited to transfer the semantic information from the
text prompts to the image domain, where text provides a global control for
semantic objects in the image. In this work, we introduce a colorization model
piggybacking on the existing powerful T2I diffusion model. Our key idea is to
exploit the color prior knowledge in the pre-trained T2I diffusion model for
realistic and diverse colorization. A diffusion guider is designed to
incorporate the pre-trained weights of the latent diffusion model to output a
latent color prior that conforms to the visual semantics of the grayscale
input. A lightness-aware VQVAE will then generate the colorized result with
pixel-perfect alignment to the given grayscale image. Our model can also
achieve conditional colorization with additional inputs (e.g. user hints and
texts). Extensive experiments show that our method achieves state-of-the-art
performance in terms of perceptual quality.
- Abstract(参考訳): 画像の着色は何十年もの間、コミュニティの研究の関心を惹きつけてきた。
しかし、既存の方法では、人間の色に関するグローバルな理解が欠如しているため、グレースケールの画像に対して満足のいく色付け結果の提供に苦慮している。
近年,テキストプロンプトから画像領域に意味情報を転送するために,大規模なテキスト・ツー・イメージ(T2I)モデルが利用されている。
本研究では,既存の強力なT2I拡散モデルに基づくカラー化モデルを提案する。
我々のキーとなるアイデアは、事前訓練されたT2I拡散モデルにおける事前知識を利用して、現実的で多様な色付けを行うことである。
拡散誘導器は、潜在拡散モデルの事前訓練された重みを組み込んで、グレースケール入力の視覚的意味に合致した潜在色を出力するように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
我々のモデルは、追加の入力(例えばユーザヒントやテキスト)で条件付き色付けも実現できる。
広汎な実験により,本手法は知覚的品質の面で最先端の性能を達成することが示された。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Multimodal Semantic-Aware Automatic Colorization with Diffusion Prior [15.188673173327658]
色を可塑性意味論で合成する前に拡散の異常な生成能力を利用する。
モデルが画像の内容を理解し、飽和色を提供するのに役立つため、マルチモーダルなハイレベルセマンティクスを前もって採用する。
輝度対応デコーダは細部を復元し、全体的な視覚的品質を向上させるように設計されている。
論文 参考訳(メタデータ) (2024-04-25T15:28:22Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Incorporating Ensemble and Transfer Learning For An End-To-End
Auto-Colorized Image Detection Model [0.0]
本稿では,移動学習とアンサンブル学習の利点を組み合わせた新たな手法を提案する。
提案したモデルは、94.55%から99.13%の精度で有望な結果を示す。
論文 参考訳(メタデータ) (2023-09-25T19:22:57Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。
各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。
提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-04T18:40:20Z) - Color2Style: Real-Time Exemplar-Based Image Colorization with
Self-Reference Learning and Deep Feature Modulation [29.270149925368674]
色を鮮やかな色で満たしてグレースケールの画像媒体を復活させるため,カラーカラー化手法としてColor2Styleを提案する。
提案手法は,参照画像から抽出した色埋め込みを入力されたグレースケール画像の深部表現に注入する,単純だが効果的な深部特徴変調(DFM)モジュールを利用する。
論文 参考訳(メタデータ) (2021-06-15T10:05:58Z) - Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。
そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文 参考訳(メタデータ) (2020-06-13T08:13:30Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。