論文の概要: Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
- arxiv url: http://arxiv.org/abs/2509.10058v1
- Date: Fri, 12 Sep 2025 08:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.019642
- Title: Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
- Title(参考訳): カラーミー(Color Me)が正しい: 拡散生成を改善するための知覚色空間とテキスト埋め込み
- Authors: Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, Cheng Yu Yeo, Chiang Tseng, Bo-Kai Ruan, Wen-Sheng Lien, Hong-Han Shuai,
- Abstract要約: 既存のアプローチは、あいまいな色の記述を解決するために、クロスアテンション操作、参照画像、微調整に依存している。
本稿では,大規模言語モデル(LLM)を利用して色関連プロンプトを曖昧にすることで,色忠実度を高める訓練自由フレームワークを提案する。
提案手法はまず,テキストプロンプトにおけるあいまいな色条件を解決するために,大言語モデル(LLM)を用い,得られた色条件の空間的関係に基づいてテキスト埋め込みを洗練する。
- 参考スコア(独自算出の注目度): 21.37070510103594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate color alignment in text-to-image (T2I) generation is critical for applications such as fashion, product visualization, and interior design, yet current diffusion models struggle with nuanced and compound color terms (e.g., Tiffany blue, lime green, hot pink), often producing images that are misaligned with human intent. Existing approaches rely on cross-attention manipulation, reference images, or fine-tuning but fail to systematically resolve ambiguous color descriptions. To precisely render colors under prompt ambiguity, we propose a training-free framework that enhances color fidelity by leveraging a large language model (LLM) to disambiguate color-related prompts and guiding color blending operations directly in the text embedding space. Our method first employs a large language model (LLM) to resolve ambiguous color terms in the text prompt, and then refines the text embeddings based on the spatial relationships of the resulting color terms in the CIELAB color space. Unlike prior methods, our approach improves color accuracy without requiring additional training or external reference images. Experimental results demonstrate that our framework improves color alignment without compromising image quality, bridging the gap between text semantics and visual generation.
- Abstract(参考訳): テクスト・ツー・イメージ(T2I)生成における正確なカラーアライメントは、ファッション、製品ビジュアライゼーション、インテリアデザインといったアプリケーションには不可欠であるが、現在の拡散モデルはニュアンスや複合色(例えば、ティファニー・ブルー、ライム・グリーン、ホット・ピンク)に苦しむ。
既存のアプローチは、クロスアテンション操作、参照画像、微調整に頼っているが、系統的にあいまいな色記述を解決できない。
そこで本研究では,テキスト埋め込み空間において,色関連プロンプトの曖昧化と色ブレンディング操作の指導を行うために,大規模言語モデル(LLM)を活用することにより,色忠実度を高める訓練自由フレームワークを提案する。
提案手法はまず,テキストプロンプトにおけるあいまいな色条件を解決するために,大言語モデル (LLM) を用いて,CIELAB色空間における色条件の空間的関係に基づいてテキスト埋め込みを改良する。
従来手法とは異なり、トレーニングや外部参照画像の追加を必要とせず、色精度を向上させる。
実験により,本フレームワークは画像品質を損なうことなく色調を向上し,テキストセマンティクスと視覚生成のギャップを埋めることを示した。
関連論文リスト
- Language-based Image Colorization: A Benchmark and Beyond [19.70668766997928]
画像の自動色付け手法は、色あいさによる高品質な画像の生成に苦慮している。
テキスト記述の効率性と柔軟性をフル活用して色付けを導くために,言語に基づく色付け手法を提案する。
これは、言語ベースの画像色付けフィールドに関する、初めての包括的なレビューとベンチマークである。
論文 参考訳(メタデータ) (2025-03-19T08:09:32Z) - Free-Lunch Color-Texture Disentanglement for Stylized Image Generation [58.406368812760256]
本稿では,タイマライズされたT2I生成において,フリーランチなカラーテクスチャ・ディコンタングルを実現するための,最初のチューニング自由アプローチを提案する。
色とテクスチャの基準画像からCTE(Color-Texture Embeddings)を分離・抽出する技術を開発した。
生成した画像の色パレットが色基準と密接に一致していることを確認するため、白と彩色変換を適用する。
論文 参考訳(メタデータ) (2025-03-18T14:10:43Z) - Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。