Fugu-MT 論文翻訳(概要): ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement

論文の概要: ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement

arxiv url: http://arxiv.org/abs/2407.07197v1
Date: Tue, 9 Jul 2024 19:26:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 18:41:00.416761
Title: ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement
Title（参考訳）: ColorPeel:色と形状の絡み合いによる拡散モデルによるカラープロンプト学習
Authors: Muhammad Atif Butt, Kai Wang, Javier Vazquez-Corral, Joost van de Weijer,
Abstract要約: ユーザが選択した色に合わせて、特定の色プロンプトを学習することを提案する。我々の手法はColorPeelと呼ばれ、T2Iモデルが新しいカラープロンプトを剥がすのに役立ちます。本研究は,T2Iモデルの精度と汎用性向上に向けた重要な一歩である。
参考スコア（独自算出の注目度）: 20.45850285936787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-Image (T2I) generation has made significant advancements with the advent of diffusion models. These models exhibit remarkable abilities to produce images based on textual prompts. Current T2I models allow users to specify object colors using linguistic color names. However, these labels encompass broad color ranges, making it difficult to achieve precise color matching. To tackle this challenging task, named color prompt learning, we propose to learn specific color prompts tailored to user-selected colors. Existing T2I personalization methods tend to result in color-shape entanglement. To overcome this, we generate several basic geometric objects in the target color, allowing for color and shape disentanglement during the color prompt learning. Our method, denoted as ColorPeel, successfully assists the T2I models to peel off the novel color prompts from these colored shapes. In the experiments, we demonstrate the efficacy of ColorPeel in achieving precise color generation with T2I models. Furthermore, we generalize ColorPeel to effectively learn abstract attribute concepts, including textures, materials, etc. Our findings represent a significant step towards improving precision and versatility of T2I models, offering new opportunities for creative applications and design tasks. Our project is available at https://moatifbutt.github.io/colorpeel/.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成は拡散モデルの出現とともに大きな進歩を遂げた。これらのモデルは、テキストのプロンプトに基づいて画像を生成する優れた能力を示す。現在のT2Iモデルでは、ユーザーは言語的な色名を使ってオブジェクトの色を指定することができる。しかし、これらのラベルは幅広い色域を包含しており、正確な色マッチングを実現することは困難である。この課題に対処するために,ユーザが選択した色に合わせた特定の色プロンプトを学習することを提案する。既存のT2Iパーソナライズ手法は、色が絡み合う傾向にある。これを解決するために、ターゲット色にいくつかの基本的な幾何学的オブジェクトを生成し、色速学習中に色と形状が乱れやすいようにする。 ColorPeelと呼ばれるこの手法は、T2Iモデルのカラープロンプトから新しい色のプロンプトを剥がすのに役立ちます。実験では、T2Iモデルを用いて正確な色生成を実現する上で、ColorPeelの有効性を実証した。さらに,ColorPeelを一般化して,テクスチャや材料など,抽象的な属性概念を効果的に学習する。我々の発見は、T2Iモデルの精度と汎用性を向上させるための重要なステップであり、クリエイティブなアプリケーションやデザインタスクに新たな機会を提供する。私たちのプロジェクトはhttps://moatifbutt.github.io/colorpeel/で利用可能です。

関連論文リスト

MagicColor: Multi-Instance Sketch Colorization [44.72374445094054]
MagicColorは、マルチインスタンススケッチのカラー化のための拡散ベースのフレームワークである。本モデルでは,手作業による調整を一切行わず,カラー化プロセスの自動化を重要視する。
論文参考訳（メタデータ） (2025-03-21T08:53:14Z)
Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.406368812760256]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文参考訳（メタデータ） (2025-03-18T14:10:43Z)
ColorFlow: Retrieval-Augmented Image Sequence Colorization [65.93834649502898]
産業用途における画像シーケンスのカラー化に適した3段階拡散に基づくフレームワークを提案する。 IDごとの微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は新たにRetrieval Augmented Colorization Pipelineを提案する。パイプラインには、カラーアイデンティティ抽出のためのブランチと、カラー化のためのブランチという、デュアルブランチ設計も備えています。
論文参考訳（メタデータ） (2024-12-16T14:32:49Z)
Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文参考訳（メタデータ） (2024-10-25T09:33:27Z)
L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文参考訳（メタデータ） (2024-10-07T12:16:21Z)
Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。 T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文参考訳（メタデータ） (2024-03-28T02:35:53Z)
Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文参考訳（メタデータ） (2024-02-16T17:51:13Z)
Fine-Tuning InstructPix2Pix for Advanced Image Colorization [3.4975669723257035]
本稿では,InstructPix2Pixモデルの微調整によるヒト画像のカラー化手法を提案する。 IMDB-WIKIデータセットを用いてモデルを微調整し、ChatGPTが生成する多様なカラー化プロンプトと白黒画像をペアリングする。微調整後,本モデルでは,元となるInstructPix2Pixモデルを定量的に比較した。
論文参考訳（メタデータ） (2023-12-08T01:36:49Z)
Language-based Photo Color Adjustment for Graphic Designs [38.43984897069872]
画像のリカラー化のための対話型言語ベースのアプローチを提案する。本モデルでは,ソース色と対象領域を予測し,与えられた言語に基づく指示に基づいて,対象領域をソース色で再色することができる。
論文参考訳（メタデータ） (2023-08-06T08:53:49Z)
DiffColor: Toward High Fidelity Text-Guided Image Colorization with Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文参考訳（メタデータ） (2023-08-03T09:38:35Z)
L-CAD: Language-based Colorization with Any-level Descriptions using Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文参考訳（メタデータ） (2023-05-24T14:57:42Z)
Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文参考訳（メタデータ） (2023-04-21T16:23:24Z)
Color Counting for Fashion, Art, and Design [0.0]
カラーモデリングの最初のステップは、アイテム/オブジェクトの色の数を見積もることです。累積色ヒストグラムに基づく新しいカラーカウント手法を提案する。この研究は、カラーカウントマシンの問題に対処する最初の試みである。
論文参考訳（メタデータ） (2021-10-13T12:42:15Z)
Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文参考訳（メタデータ） (2020-06-13T08:13:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。