Fugu-MT 論文翻訳(概要): DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models

論文の概要: DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models

arxiv url: http://arxiv.org/abs/2308.01655v1
Date: Thu, 3 Aug 2023 09:38:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 14:27:05.037597
Title: DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models
Title（参考訳）: DiffColor:拡散モデルによる高忠実テキストガイド画像のカラー化に向けて
Authors: Jianxin Lin, Peng Xiao, Yijun Wang, Rongju Zhang, Xiangxiang Zeng
Abstract要約: そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
参考スコア（独自算出の注目度）: 12.897939032560537
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent data-driven image colorization methods have enabled automatic or reference-based colorization, while still suffering from unsatisfactory and inaccurate object-level color control. To address these issues, we propose a new method called DiffColor that leverages the power of pre-trained diffusion models to recover vivid colors conditioned on a prompt text, without any additional inputs. DiffColor mainly contains two stages: colorization with generative color prior and in-context controllable colorization. Specifically, we first fine-tune a pre-trained text-to-image model to generate colorized images using a CLIP-based contrastive loss. Then we try to obtain an optimized text embedding aligning the colorized image and the text prompt, and a fine-tuned diffusion model enabling high-quality image reconstruction. Our method can produce vivid and diverse colors with a few iterations, and keep the structure and background intact while having colors well-aligned with the target language guidance. Moreover, our method allows for in-context colorization, i.e., producing different colorization results by modifying prompt texts without any fine-tuning, and can achieve object-level controllable colorization results. Extensive experiments and user studies demonstrate that DiffColor outperforms previous works in terms of visual quality, color fidelity, and diversity of colorization options.
Abstract（参考訳）: 最近のデータ駆動画像のカラー化手法は、不満足で不正確なオブジェクトレベルのカラー制御に苦しむ一方で、自動または参照ベースのカラー化を可能にしている。これらの問題に対処するために,DiffColor という新しい手法を提案する。これは事前学習した拡散モデルのパワーを利用して,追加の入力を伴わずに,プロンプトテキストに条件付けされた鮮やかな色を復元する。 DiffColorは主に、生成色による色付けと、文脈内制御可能な色付けの2段階を含む。具体的には,まず,事前学習したテキストから画像への変換モデルを微調整し,クリップベースのコントラスト損失を用いてカラー画像を生成する。次に,カラー化画像とテキストプロンプトを整合させた最適化されたテキスト埋め込みと,高品質な画像再構成を可能にする微調整拡散モデルを得る。本手法は,数回の反復で鮮やかで多彩な色を生成でき,対象言語ガイダンスとよく一致しながら構造や背景を維持できる。さらに、本手法では、微調整なしでプロンプトテキストを変更して異なる色化結果を生成することができるため、オブジェクトレベルの制御可能な色化結果が得られる。広範な実験とユーザー研究により、diffcolorは、視覚品質、色再現性、色付けオプションの多様性の観点から、以前の作品よりも優れていることが示されている。

関連論文リスト

Language-based Image Colorization: A Benchmark and Beyond [19.70668766997928]
画像の自動色付け手法は、色あいさによる高品質な画像の生成に苦慮している。テキスト記述の効率性と柔軟性をフル活用して色付けを導くために,言語に基づく色付け手法を提案する。これは、言語ベースの画像色付けフィールドに関する、初めての包括的なレビューとベンチマークである。
論文参考訳（メタデータ） (2025-03-19T08:09:32Z)
Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.406368812760256]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文参考訳（メタデータ） (2025-03-18T14:10:43Z)
Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文参考訳（メタデータ） (2025-03-12T21:49:52Z)
ColorFlow: Retrieval-Augmented Image Sequence Colorization [65.93834649502898]
産業用途における画像シーケンスのカラー化に適した3段階拡散に基づくフレームワークを提案する。 IDごとの微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は新たにRetrieval Augmented Colorization Pipelineを提案する。パイプラインには、カラーアイデンティティ抽出のためのブランチと、カラー化のためのブランチという、デュアルブランチ設計も備えています。
論文参考訳（メタデータ） (2024-12-16T14:32:49Z)
Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文参考訳（メタデータ） (2024-10-25T09:33:27Z)
L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文参考訳（メタデータ） (2024-10-07T12:16:21Z)
Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文参考訳（メタデータ） (2024-04-08T16:46:07Z)
Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文参考訳（メタデータ） (2024-02-16T17:51:13Z)
Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文参考訳（メタデータ） (2023-12-07T08:59:20Z)
L-CAD: Language-based Colorization with Any-level Descriptions using Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文参考訳（メタデータ） (2023-05-24T14:57:42Z)
MMC: Multi-Modal Colorization of Images using Textual Descriptions [22.666387184216678]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を受信し、関連する色成分を予測しようとするディープネットワークを提案する。また、画像中の各オブジェクトを予測し、個々の記述で色付けし、それらの属性を色付けプロセスに組み込む。提案手法は,LPIPS,PSNR,SSIMの指標を用いて,既存のカラー化手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-04-24T10:53:13Z)
Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文参考訳（メタデータ） (2023-04-21T16:23:24Z)
TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-08-04T18:40:20Z)
Image Colorization: A Survey and Dataset [94.59768013860668]
本稿では,最先端の深層学習に基づく画像着色技術に関する包括的調査を行う。既存の着色技法を7つのクラスに分類し、その性能を規定する重要な要因について論じる。我々は既存のデータセットと提案した画像の両方を用いて、既存の画像のカラー化手法を広範囲に実験的に評価する。
論文参考訳（メタデータ） (2020-08-25T01:22:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。