論文の概要: NumColor: Precise Numeric Color Control in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2603.13547v1
- Date: Fri, 13 Mar 2026 19:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.266751
- Title: NumColor: Precise Numeric Color Control in Text-to-Image Generation
- Title(参考訳): NumColor:テキスト・画像生成における精密な数値色制御
- Authors: Muhammad Atif Butt, Diego Hernandez, Alexandra Gomez-Villa, Kai Wang, Javier Vazquez-Corral, Joost Van De Weijer,
- Abstract要約: テキストと画像のモデルは、自然言語の記述から画像を生成するのに優れているが、数値的な色を解釈できない。
我々は,複数の拡散アーキテクチャを横断する正確な数値色制御が可能なNumColorを提案する。
NumColorは、GenColorBenchベンチマークで色調和スコアを10-30倍改善しながら、5つのモデルで4-9倍の数値色精度を向上させる。
- 参考スコア(独自算出の注目度): 57.72106507860579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models excel at generating images from natural language descriptions, yet fail to interpret numerical colors such as hex codes (#FF5733) and RGB values (rgb(255,87,51)). This limitation stems from subword tokenization, which fragments color codes into semantically meaningless tokens that text encoders cannot map to coherent color representations. We present NumColor, that enables precise numerical color control across multiple diffusion architectures. NumColor comprises two components: a Color Token Aggregator that detects color specifications regardless of tokenization, and a ColorBook containing 6,707 learnable embeddings that map colors to embedding space of text encoder in perceptually uniform CIE Lab space. We introduce two auxiliary losses, directional alignment and interpolation consistency, to enforce geometric correspondence between Lab and embedding spaces, enabling smooth color interpolation. To train the ColorBook, we construct NumColor-Data, a synthetic dataset of 500K rendered images with unambiguous color-to-pixel correspondence, eliminating the annotation ambiguity inherent in photographic datasets. Although trained solely on FLUX, NumColor transfers zero-shot to SD3, SD3.5, PixArt-α, and PixArt-Σ without model-specific adaptation. NumColor improves numerical color accuracy by 4-9x across five models, while simultaneously improving color harmony scores by 10-30x on GenColorBench benchmark.
- Abstract(参考訳): テキストと画像の拡散モデルは、自然言語の記述から画像を生成するのに優れているが、ヘックス符号(#FF5733)やRGB値(rgb(255,87,51))などの数値色を解釈できない。
この制限は、テキストエンコーダがコヒーレントな色表現にマッピングできない意味のない無意味なトークンに色コードを断片化するサブワードトークン化に由来する。
我々は,複数の拡散アーキテクチャを横断する正確な数値色制御が可能なNumColorを提案する。
NumColorは、2つのコンポーネントで構成されている: トークン化に関係なく色仕様を検出するColor Token Aggregatorと、カラーを知覚的に均一なCIE Lab空間に埋め込みするテキストエンコーダの埋め込み空間にマップする6,707の学習可能な埋め込みを含むColorBookである。
本研究では,方向アライメントと補間整合性という2つの補助的損失を導入し,組込み空間と組込み空間の幾何学的対応を強制し,スムーズな色補間を可能にする。
ColorBook をトレーニングするために,500K のレンダリング画像からなる合成データセットである NumColor-Data を構築し,写真データセットに固有のアノテーションの曖昧さを排除した。
NumColorはFLUXのみをトレーニングしているが、モデル固有の適応なしにゼロショットをSD3、SD3.5、PixArt-α、PixArt-Σに転送する。
NumColorは、GenColorBenchベンチマークで色調和スコアを10-30倍改善しながら、5つのモデルで4-9倍の数値色精度を向上させる。
関連論文リスト
- Controllable-Continuous Color Editing in Diffusion Model via Color Mapping [73.62340517056619]
テキスト埋め込み空間と画像RGB値との対応性を明示的にモデル化するカラーマッピングモジュールを提案する。
ユーザーはターゲットのRGB範囲を指定することで、所望の範囲内で連続的な色の変化のある画像を生成することができる。
実験により,色の連続性と可制御性の観点から,本手法が良好に動作することを示した。
論文 参考訳(メタデータ) (2025-09-17T07:12:51Z) - Paint Bucket Colorization Using Anime Character Color Design Sheets [72.66788521378864]
ネットワークがセグメント間の関係を理解することができる包摂的マッチングを導入する。
ネットワークのトレーニングパイプラインは、カラー化と連続フレームカラー化の両方のパフォーマンスを著しく向上させる。
ネットワークのトレーニングをサポートするために、PaintBucket-Characterというユニークなデータセットを開発しました。
論文 参考訳(メタデータ) (2024-10-25T09:33:27Z) - Color Space Learning for Cross-Color Person Re-Identification [31.110110147991033]
クロスカラーパーソンReID問題に対するカラー空間学習(CSL)を提案する。
CSLは、イメージレベルカラー拡張とPixelレベルカラートランスフォーメーションの2つのモジュールで、モデルが色に敏感になるようにガイドする。
我々の手法は一貫して最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-05-15T16:26:06Z) - Control Color: Multimodal Diffusion-based Interactive Image Colorization [81.68817300796644]
Control Color (Ctrl Color) は、事前訓練された安定拡散(SD)モデルを利用する多モードカラー化手法である。
ユーザのストロークをエンコードして、局所的な色操作を正確に行うための効果的な方法を提案する。
また、カラーオーバーフローと不正確な色付けの長年の問題に対処するために、自己注意に基づく新しいモジュールとコンテンツ誘導型変形可能なオートエンコーダを導入する。
論文 参考訳(メタデータ) (2024-02-16T17:51:13Z) - Learning to Structure an Image with Few Colors and Beyond [59.34619548026885]
カラー量子化ネットワークであるColorCNNを提案し、分類損失を最小限に抑えて、限られた色空間で画像を構成することを学習する。
複数の色空間サイズ構成をサポートするColorCNN+を導入し、大色空間における認識精度の低下と望ましくない視覚的忠実度に関する過去の問題に対処する。
潜在的な応用として、ネットワーク認識のための画像圧縮手法としてColorCNNが利用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-17T17:59:15Z) - The Utility of Decorrelating Colour Spaces in Vector Quantised
Variational Autoencoders [1.7792264784100689]
ネットワーク学習構造表現を強制するカラー空間変換を提案する。
入力が1つの色空間のイメージであり、出力が別の色空間のイメージであるVQ-VAEのいくつかの例を訓練した。
論文 参考訳(メタデータ) (2020-09-30T07:44:01Z) - Learning to Structure an Image with Few Colors [59.34619548026885]
そこで,カラー量子化ネットワークであるColorCNNを提案する。
1ビットのカラースペース(すなわち2色)だけで、提案されたネットワークはCIFAR10データセット上で82.1%のトップ-1の精度を達成した。
アプリケーションの場合、PNGでエンコードされた場合、提案したカラー量子化は、極低ビットレート方式の他の画像圧縮方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-17T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。