Fugu-MT 論文翻訳(概要): Control Color: Multimodal Diffusion-based Interactive Image Colorization

論文の概要: Control Color: Multimodal Diffusion-based Interactive Image Colorization

arxiv url: http://arxiv.org/abs/2402.10855v1
Date: Fri, 16 Feb 2024 17:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 14:50:55.978847
Title: Control Color: Multimodal Diffusion-based Interactive Image Colorization
Title（参考訳）: 制御色:マルチモーダル拡散に基づくインタラクティブ画像色化
Authors: Zhexin Liang, Zhaochen Li, Shangchen Zhou, Chongyi Li, Chen Change Loy
Abstract要約: Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
参考スコア（独自算出の注目度）: 81.68817300796644
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the existence of numerous colorization methods, several limitations still exist, such as lack of user interaction, inflexibility in local colorization, unnatural color rendering, insufficient color variation, and color overflow. To solve these issues, we introduce Control Color (CtrlColor), a multi-modal colorization method that leverages the pre-trained Stable Diffusion (SD) model, offering promising capabilities in highly controllable interactive image colorization. While several diffusion-based methods have been proposed, supporting colorization in multiple modalities remains non-trivial. In this study, we aim to tackle both unconditional and conditional image colorization (text prompts, strokes, exemplars) and address color overflow and incorrect color within a unified framework. Specifically, we present an effective way to encode user strokes to enable precise local color manipulation and employ a practical way to constrain the color distribution similar to exemplars. Apart from accepting text prompts as conditions, these designs add versatility to our approach. We also introduce a novel module based on self-attention and a content-guided deformable autoencoder to address the long-standing issues of color overflow and inaccurate coloring. Extensive comparisons show that our model outperforms state-of-the-art image colorization methods both qualitatively and quantitatively.
Abstract（参考訳）: 多くの色付け方法が存在するにもかかわらず、ユーザインタラクションの欠如、局所色付けの柔軟性の低下、不自然な色付け、色の変化の不足、色オーバーフローなど、いくつかの制限がある。そこで,本研究では,事前学習されたsdモデルを利用した多色化手法である制御色(ctrlcolor)を導入し,高度に制御可能なインタラクティブ画像のカラー化に有望な機能を提供する。拡散ベースの手法がいくつか提案されているが、複数のモードのカラー化をサポートすることは自明ではない。本研究では,無条件および条件画像のカラー化(テキストプロンプト,ストローク,exemplars)と,統一フレームワーク内で色オーバーフローと不正確な色に対処することを目的とする。具体的には,ユーザストロークをエンコードして正確な局所色操作を可能にする効果的な方法を示し,例示と類似した色分布を制約する実用的な方法を提案する。テキストプロンプトを条件として受け入れる以外は、これらのデザインは私たちのアプローチに汎用性を与えます。また,カラーオーバーフローや不正確なカラー化といった長年の課題に対処するために,セルフアテンションに基づく新しいモジュールとコンテンツガイド付き変形可能なオートエンコーダを導入する。広範比較により,本モデルは定性的かつ定量的に,最先端のカラー化手法よりも優れていることが示された。

関連論文リスト

Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文参考訳（メタデータ） (2025-03-12T21:49:52Z)
ColorFlow: Retrieval-Augmented Image Sequence Colorization [65.93834649502898]
産業用途における画像シーケンスのカラー化に適した3段階拡散に基づくフレームワークを提案する。 IDごとの微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は新たにRetrieval Augmented Colorization Pipelineを提案する。パイプラインには、カラーアイデンティティ抽出のためのブランチと、カラー化のためのブランチという、デュアルブランチ設計も備えています。
論文参考訳（メタデータ） (2024-12-16T14:32:49Z)
Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文参考訳（メタデータ） (2024-10-25T09:33:27Z)
L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文参考訳（メタデータ） (2024-10-07T12:16:21Z)
MultiColor: Image Colorization by Learning from Multiple Color Spaces [4.738828630428634]
MultiColorは、グレースケールイメージを自動的にカラー化する学習ベースの新しいアプローチである。我々は、個々の色空間に専用の着色モジュール群を用いる。これらの予測色チャネルは様々な色空間を表すため、相補的なネットワークは相補性を生かし、優雅で合理的な色付き画像を生成するように設計されている。
論文参考訳（メタデータ） (2024-08-08T02:34:41Z)
Palette-based Color Transfer between Images [9.471264982229508]
そこで我々は,新しいカラースキームを自動生成できるパレットベースのカラートランスファー手法を提案する。再設計されたパレットベースのクラスタリング手法により、色分布に応じて画素を異なるセグメントに分類することができる。本手法は, 自然リアリズム, 色整合性, 一般性, 堅牢性の観点から, ピア法に対して有意な優位性を示す。
論文参考訳（メタデータ） (2024-05-14T01:41:19Z)
Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文参考訳（メタデータ） (2024-04-08T16:46:07Z)
Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文参考訳（メタデータ） (2023-12-07T08:59:20Z)
DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文参考訳（メタデータ） (2023-08-03T09:38:35Z)
PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。 PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文参考訳（メタデータ） (2022-10-20T12:28:31Z)
UniColor: A Unified Framework for Multi-Modal Colorization with Transformer [23.581502129504287]
各種条件を1つのモデルに組み込むための2段階カラー化フレームワークを提案する。第一段階では、マルチモーダル条件はヒントポイントの共通表現に変換される。第2段階では,Chroma-VQGANとHybrid-Transformerで構成されるTransformerベースのネットワークを提案し,ヒント点に条件付き多彩で高品質なカラー化結果を生成する。
論文参考訳（メタデータ） (2022-09-22T17:59:09Z)
Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文参考訳（メタデータ） (2020-05-21T17:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。