論文の概要: Control Color: Multimodal Diffusion-based Interactive Image Colorization
- arxiv url: http://arxiv.org/abs/2402.10855v1
- Date: Fri, 16 Feb 2024 17:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:50:55.978847
- Title: Control Color: Multimodal Diffusion-based Interactive Image Colorization
- Title(参考訳): 制御色:マルチモーダル拡散に基づくインタラクティブ画像色化
- Authors: Zhexin Liang, Zhaochen Li, Shangchen Zhou, Chongyi Li, Chen Change Loy
- Abstract要約: Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
- 参考スコア(独自算出の注目度): 81.68817300796644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the existence of numerous colorization methods, several limitations
still exist, such as lack of user interaction, inflexibility in local
colorization, unnatural color rendering, insufficient color variation, and
color overflow. To solve these issues, we introduce Control Color (CtrlColor),
a multi-modal colorization method that leverages the pre-trained Stable
Diffusion (SD) model, offering promising capabilities in highly controllable
interactive image colorization. While several diffusion-based methods have been
proposed, supporting colorization in multiple modalities remains non-trivial.
In this study, we aim to tackle both unconditional and conditional image
colorization (text prompts, strokes, exemplars) and address color overflow and
incorrect color within a unified framework. Specifically, we present an
effective way to encode user strokes to enable precise local color manipulation
and employ a practical way to constrain the color distribution similar to
exemplars. Apart from accepting text prompts as conditions, these designs add
versatility to our approach. We also introduce a novel module based on
self-attention and a content-guided deformable autoencoder to address the
long-standing issues of color overflow and inaccurate coloring. Extensive
comparisons show that our model outperforms state-of-the-art image colorization
methods both qualitatively and quantitatively.
- Abstract(参考訳): 多くの色付け方法が存在するにもかかわらず、ユーザインタラクションの欠如、局所色付けの柔軟性の低下、不自然な色付け、色の変化の不足、色オーバーフローなど、いくつかの制限がある。
そこで,本研究では,事前学習されたsdモデルを利用した多色化手法である制御色(ctrlcolor)を導入し,高度に制御可能なインタラクティブ画像のカラー化に有望な機能を提供する。
拡散ベースの手法がいくつか提案されているが、複数のモードのカラー化をサポートすることは自明ではない。
本研究では,無条件および条件画像のカラー化(テキストプロンプト,ストローク,exemplars)と,統一フレームワーク内で色オーバーフローと不正確な色に対処することを目的とする。
具体的には,ユーザストロークをエンコードして正確な局所色操作を可能にする効果的な方法を示し,例示と類似した色分布を制約する実用的な方法を提案する。
テキストプロンプトを条件として受け入れる以外は、これらのデザインは私たちのアプローチに汎用性を与えます。
また,カラーオーバーフローや不正確なカラー化といった長年の課題に対処するために,セルフアテンションに基づく新しいモジュールとコンテンツガイド付き変形可能なオートエンコーダを導入する。
広範比較により,本モデルは定性的かつ定量的に,最先端のカラー化手法よりも優れていることが示された。
関連論文リスト
- Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - MultiColor: Image Colorization by Learning from Multiple Color Spaces [4.738828630428634]
MultiColorは、グレースケールイメージを自動的にカラー化する学習ベースの新しいアプローチである。
我々は、個々の色空間に専用の着色モジュール群を用いる。
これらの予測色チャネルは様々な色空間を表すため、相補的なネットワークは相補性を生かし、優雅で合理的な色付き画像を生成するように設計されている。
論文 参考訳(メタデータ) (2024-08-08T02:34:41Z) - Palette-based Color Transfer between Images [9.471264982229508]
そこで我々は,新しいカラースキームを自動生成できるパレットベースのカラートランスファー手法を提案する。
再設計されたパレットベースのクラスタリング手法により、色分布に応じて画素を異なるセグメントに分類することができる。
本手法は, 自然リアリズム, 色整合性, 一般性, 堅牢性の観点から, ピア法に対して有意な優位性を示す。
論文 参考訳(メタデータ) (2024-05-14T01:41:19Z) - Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。
グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。
これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文 参考訳(メタデータ) (2024-04-08T16:46:07Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。
PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文 参考訳(メタデータ) (2022-10-20T12:28:31Z) - UniColor: A Unified Framework for Multi-Modal Colorization with
Transformer [23.581502129504287]
各種条件を1つのモデルに組み込むための2段階カラー化フレームワークを提案する。
第一段階では、マルチモーダル条件はヒントポイントの共通表現に変換される。
第2段階では,Chroma-VQGANとHybrid-Transformerで構成されるTransformerベースのネットワークを提案し,ヒント点に条件付き多彩で高品質なカラー化結果を生成する。
論文 参考訳(メタデータ) (2022-09-22T17:59:09Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。