論文の概要: Control Color: Multimodal Diffusion-based Interactive Image Colorization
- arxiv url: http://arxiv.org/abs/2402.10855v1
- Date: Fri, 16 Feb 2024 17:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:50:55.978847
- Title: Control Color: Multimodal Diffusion-based Interactive Image Colorization
- Title(参考訳): 制御色:マルチモーダル拡散に基づくインタラクティブ画像色化
- Authors: Zhexin Liang, Zhaochen Li, Shangchen Zhou, Chongyi Li, Chen Change Loy
- Abstract要約: Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
- 参考スコア(独自算出の注目度): 81.68817300796644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the existence of numerous colorization methods, several limitations
still exist, such as lack of user interaction, inflexibility in local
colorization, unnatural color rendering, insufficient color variation, and
color overflow. To solve these issues, we introduce Control Color (CtrlColor),
a multi-modal colorization method that leverages the pre-trained Stable
Diffusion (SD) model, offering promising capabilities in highly controllable
interactive image colorization. While several diffusion-based methods have been
proposed, supporting colorization in multiple modalities remains non-trivial.
In this study, we aim to tackle both unconditional and conditional image
colorization (text prompts, strokes, exemplars) and address color overflow and
incorrect color within a unified framework. Specifically, we present an
effective way to encode user strokes to enable precise local color manipulation
and employ a practical way to constrain the color distribution similar to
exemplars. Apart from accepting text prompts as conditions, these designs add
versatility to our approach. We also introduce a novel module based on
self-attention and a content-guided deformable autoencoder to address the
long-standing issues of color overflow and inaccurate coloring. Extensive
comparisons show that our model outperforms state-of-the-art image colorization
methods both qualitatively and quantitatively.
- Abstract(参考訳): 多くの色付け方法が存在するにもかかわらず、ユーザインタラクションの欠如、局所色付けの柔軟性の低下、不自然な色付け、色の変化の不足、色オーバーフローなど、いくつかの制限がある。
そこで,本研究では,事前学習されたsdモデルを利用した多色化手法である制御色(ctrlcolor)を導入し,高度に制御可能なインタラクティブ画像のカラー化に有望な機能を提供する。
拡散ベースの手法がいくつか提案されているが、複数のモードのカラー化をサポートすることは自明ではない。
本研究では,無条件および条件画像のカラー化(テキストプロンプト,ストローク,exemplars)と,統一フレームワーク内で色オーバーフローと不正確な色に対処することを目的とする。
具体的には,ユーザストロークをエンコードして正確な局所色操作を可能にする効果的な方法を示し,例示と類似した色分布を制約する実用的な方法を提案する。
テキストプロンプトを条件として受け入れる以外は、これらのデザインは私たちのアプローチに汎用性を与えます。
また,カラーオーバーフローや不正確なカラー化といった長年の課題に対処するために,セルフアテンションに基づく新しいモジュールとコンテンツガイド付き変形可能なオートエンコーダを導入する。
広範比較により,本モデルは定性的かつ定量的に,最先端のカラー化手法よりも優れていることが示された。
関連論文リスト
- Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-10-11T06:11:42Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - Name Your Colour For the Task: Artificially Discover Colour Naming via
Colour Quantisation Transformer [62.75343115345667]
そこで本研究では,色空間を定量化しつつ,画像上での認識を維持しつつ,色空間を定量化する新しい色量子化変換器CQFormerを提案する。
人工色システムと人間の言語における基本色用語との一貫性のある進化パターンを観察する。
我々のカラー量子化法は、画像記憶を効果的に圧縮する効率的な量子化法も提供する。
論文 参考訳(メタデータ) (2022-12-07T03:39:18Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。
PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文 参考訳(メタデータ) (2022-10-20T12:28:31Z) - UniColor: A Unified Framework for Multi-Modal Colorization with
Transformer [23.581502129504287]
各種条件を1つのモデルに組み込むための2段階カラー化フレームワークを提案する。
第一段階では、マルチモーダル条件はヒントポイントの共通表現に変換される。
第2段階では,Chroma-VQGANとHybrid-Transformerで構成されるTransformerベースのネットワークを提案し,ヒント点に条件付き多彩で高品質なカラー化結果を生成する。
論文 参考訳(メタデータ) (2022-09-22T17:59:09Z) - iColoriT: Towards Propagating Local Hint to the Right Region in
Interactive Colorization by Leveraging Vision Transformer [29.426206281291755]
iColoriT は,ユーザヒントを関連領域に伝達する新しい点対話型カラー化視覚変換器である。
提案手法は,デコーダアーキテクチャを置き換える効率的なアップサンプリング技術であるピクセルシャッフルを利用して,リアルタイムに画像のカラー化を行う。
論文 参考訳(メタデータ) (2022-07-14T11:40:32Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。