論文の概要: ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement
- arxiv url: http://arxiv.org/abs/2407.07197v1
- Date: Tue, 9 Jul 2024 19:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:41:00.416761
- Title: ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement
- Title(参考訳): ColorPeel:色と形状の絡み合いによる拡散モデルによるカラープロンプト学習
- Authors: Muhammad Atif Butt, Kai Wang, Javier Vazquez-Corral, Joost van de Weijer,
- Abstract要約: ユーザが選択した色に合わせて、特定の色プロンプトを学習することを提案する。
我々の手法はColorPeelと呼ばれ、T2Iモデルが新しいカラープロンプトを剥がすのに役立ちます。
本研究は,T2Iモデルの精度と汎用性向上に向けた重要な一歩である。
- 参考スコア(独自算出の注目度): 20.45850285936787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) generation has made significant advancements with the advent of diffusion models. These models exhibit remarkable abilities to produce images based on textual prompts. Current T2I models allow users to specify object colors using linguistic color names. However, these labels encompass broad color ranges, making it difficult to achieve precise color matching. To tackle this challenging task, named color prompt learning, we propose to learn specific color prompts tailored to user-selected colors. Existing T2I personalization methods tend to result in color-shape entanglement. To overcome this, we generate several basic geometric objects in the target color, allowing for color and shape disentanglement during the color prompt learning. Our method, denoted as ColorPeel, successfully assists the T2I models to peel off the novel color prompts from these colored shapes. In the experiments, we demonstrate the efficacy of ColorPeel in achieving precise color generation with T2I models. Furthermore, we generalize ColorPeel to effectively learn abstract attribute concepts, including textures, materials, etc. Our findings represent a significant step towards improving precision and versatility of T2I models, offering new opportunities for creative applications and design tasks. Our project is available at https://moatifbutt.github.io/colorpeel/.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は拡散モデルの出現とともに大きな進歩を遂げた。
これらのモデルは、テキストのプロンプトに基づいて画像を生成する優れた能力を示す。
現在のT2Iモデルでは、ユーザーは言語的な色名を使ってオブジェクトの色を指定することができる。
しかし、これらのラベルは幅広い色域を包含しており、正確な色マッチングを実現することは困難である。
この課題に対処するために,ユーザが選択した色に合わせた特定の色プロンプトを学習することを提案する。
既存のT2Iパーソナライズ手法は、色が絡み合う傾向にある。
これを解決するために、ターゲット色にいくつかの基本的な幾何学的オブジェクトを生成し、色速学習中に色と形状が乱れやすいようにする。
ColorPeelと呼ばれるこの手法は、T2Iモデルのカラープロンプトから新しい色のプロンプトを剥がすのに役立ちます。
実験では、T2Iモデルを用いて正確な色生成を実現する上で、ColorPeelの有効性を実証した。
さらに,ColorPeelを一般化して,テクスチャや材料など,抽象的な属性概念を効果的に学習する。
我々の発見は、T2Iモデルの精度と汎用性を向上させるための重要なステップであり、クリエイティブなアプリケーションやデザインタスクに新たな機会を提供する。
私たちのプロジェクトはhttps://moatifbutt.github.io/colorpeel/で利用可能です。
関連論文リスト
- Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Learning Inclusion Matching for Animation Paint Bucket Colorization [76.4507878427755]
ネットワークにセグメント間の包摂関係を理解するための,学習に基づく新たな包摂的マッチングパイプラインを導入する。
提案手法では,粗いカラーワープモジュールと包括的マッチングモジュールを統合した2段階のパイプラインを特徴とする。
ネットワークのトレーニングを容易にするため,PaintBucket-Characterと呼ばれるユニークなデータセットも開発した。
論文 参考訳(メタデータ) (2024-03-27T08:32:48Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Fine-Tuning InstructPix2Pix for Advanced Image Colorization [3.4975669723257035]
本稿では,InstructPix2Pixモデルの微調整によるヒト画像のカラー化手法を提案する。
IMDB-WIKIデータセットを用いてモデルを微調整し、ChatGPTが生成する多様なカラー化プロンプトと白黒画像をペアリングする。
微調整後,本モデルでは,元となるInstructPix2Pixモデルを定量的に比較した。
論文 参考訳(メタデータ) (2023-12-08T01:36:49Z) - Language-based Photo Color Adjustment for Graphic Designs [38.43984897069872]
画像のリカラー化のための対話型言語ベースのアプローチを提案する。
本モデルでは,ソース色と対象領域を予測し,与えられた言語に基づく指示に基づいて,対象領域をソース色で再色することができる。
論文 参考訳(メタデータ) (2023-08-06T08:53:49Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - Color Counting for Fashion, Art, and Design [0.0]
カラーモデリングの最初のステップは、アイテム/オブジェクトの色の数を見積もることです。
累積色ヒストグラムに基づく新しいカラーカウント手法を提案する。
この研究は、カラーカウントマシンの問題に対処する最初の試みである。
論文 参考訳(メタデータ) (2021-10-13T12:42:15Z) - Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。
そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文 参考訳(メタデータ) (2020-06-13T08:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。