論文の概要: GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2510.20586v1
- Date: Thu, 23 Oct 2025 14:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.116387
- Title: GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models
- Title(参考訳): GenColorBench: テキスト・画像生成モデルのための色評価ベンチマーク
- Authors: Muhammad Atif Butt, Alexandra Gomez-Villa, Tao Wu, Javier Vazquez-Corral, Joost Van De Weijer, Kai Wang,
- Abstract要約: GenColorBenchは、テキストから画像までのカラー生成のための、最初の総合的なベンチマークである。
I SCC-NBS や CSS3/X11 などのカラーシステムにも採用されている。
400以上の色をカバーする44K色のプロンプトによって、知覚的および自動評価を通じてモデルの真の能力を明らかにする。
- 参考スコア(独自算出の注目度): 61.786094845872576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen impressive advances in text-to-image generation, with image generative or unified models producing high-quality images from text. Yet these models still struggle with fine-grained color controllability, often failing to accurately match colors specified in text prompts. While existing benchmarks evaluate compositional reasoning and prompt adherence, none systematically assess color precision. Color is fundamental to human visual perception and communication, critical for applications from art to design workflows requiring brand consistency. However, current benchmarks either neglect color or rely on coarse assessments, missing key capabilities such as interpreting RGB values or aligning with human expectations. To this end, we propose GenColorBench, the first comprehensive benchmark for text-to-image color generation, grounded in color systems like ISCC-NBS and CSS3/X11, including numerical colors which are absent elsewhere. With 44K color-focused prompts covering 400+ colors, it reveals models' true capabilities via perceptual and automated assessments. Evaluations of popular text-to-image models using GenColorBench show performance variations, highlighting which color conventions models understand best and identifying failure modes. Our GenColorBench assessments will guide improvements in precise color generation. The benchmark will be made public upon acceptance.
- Abstract(参考訳): 近年,テキストから高品質な画像を生成する画像生成モデルや統一モデルなど,テキスト・画像生成の進歩が目覚ましい。
しかし、これらのモデルはいまだにきめ細かな色の制御に苦慮しており、しばしばテキストプロンプトで指定された色と正確に一致しない。
既存のベンチマークでは、構成的推論とプロンプト順応を評価しているが、体系的に色精度を評価するものは存在しない。
色は人間の視覚知覚とコミュニケーションの基本であり、ブランドの整合性を必要とする設計ワークフローへの応用に不可欠である。
しかしながら、現在のベンチマークでは、色を無視するか、粗い評価に依存しているか、RGB値の解釈や人間の期待の一致といった重要な機能が欠けている。
そこで本研究では,ISCC-NBSやCSS3/X11などのカラーシステムに基盤を置く,テキスト・ツー・イメージ色生成のための初の総合ベンチマークであるGenColorBenchを提案する。
400以上の色をカバーする44K色のプロンプトによって、知覚的および自動評価を通じてモデルの真の能力を明らかにする。
GenColorBenchを使用した一般的なテキスト・ツー・イメージモデルの評価は、パフォーマンスのバリエーションを示し、どのカラーコンベンションモデルが最もよく理解し、障害モードを特定するかを強調している。
GenColorBenchの評価は、正確な色生成の改善を導きます。
ベンチマークは受理時に公開されます。
関連論文リスト
- Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation [21.37070510103594]
既存のアプローチは、あいまいな色の記述を解決するために、クロスアテンション操作、参照画像、微調整に依存している。
本稿では,大規模言語モデル(LLM)を利用して色関連プロンプトを曖昧にすることで,色忠実度を高める訓練自由フレームワークを提案する。
提案手法はまず,テキストプロンプトにおけるあいまいな色条件を解決するために,大言語モデル(LLM)を用い,得られた色条件の空間的関係に基づいてテキスト埋め込みを洗練する。
論文 参考訳(メタデータ) (2025-09-12T08:44:22Z) - Leveraging Semantic Attribute Binding for Free-Lunch Color Control in Diffusion Models [53.73253164099701]
拡散モデルにおいて、微調整なしで正確なRGBレベルの色制御を実現する、トレーニング不要なアプローチであるColorWaveを導入する。
我々は、カラーウェーブが、構造化された、色一貫性の拡散に基づく画像合成のための新しいパラダイムを確立することを実証した。
論文 参考訳(メタデータ) (2025-03-12T21:49:52Z) - ColorFlow: Retrieval-Augmented Image Sequence Colorization [65.93834649502898]
産業用途における画像シーケンスのカラー化に適した3段階拡散に基づくフレームワークを提案する。
IDごとの微調整や明示的なID埋め込み抽出を必要とする既存の手法とは異なり、我々は新たにRetrieval Augmented Colorization Pipelineを提案する。
パイプラインには、カラーアイデンティティ抽出のためのブランチと、カラー化のためのブランチという、デュアルブランチ設計も備えています。
論文 参考訳(メタデータ) (2024-12-16T14:32:49Z) - ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text [5.675944597452309]
事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:46:12Z) - DiffColor: Toward High Fidelity Text-Guided Image Colorization with
Diffusion Models [12.897939032560537]
そこで我々はDiffColorと呼ばれる新しい手法を提案し、プロンプトテキストに条件付けされた鮮やかな色を復元する。
私たちはまず、CLIPベースのコントラスト損失を用いて色付き画像を生成するために、事前訓練されたテキスト・ツー・イメージ・モデルを微調整する。
次に、色付き画像とテキストプロンプトを整列した最適化されたテキスト埋め込みと、高品質な画像再構成を可能にする微調整拡散モデルを得る。
提案手法は,複数回の反復で鮮やかな多彩な色を生成でき,その構造と背景をそのままに保ちつつ,対象言語指導に適合させる。
論文 参考訳(メタデータ) (2023-08-03T09:38:35Z) - TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。
各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。
提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-04T18:40:20Z) - Colour alignment for relative colour constancy via non-standard
references [11.92389176996629]
相対色濃度は、多くの科学的イメージング応用に必須の要件である。
カメラ画像形成をブラックボックスとみなすカラーアライメントモデルを提案する。
カラーアライメントは、カメラ応答校正、応答線形化、色マッチングという3段階のプロセスとして定式化される。
論文 参考訳(メタデータ) (2021-12-30T15:58:55Z) - Image Colorization: A Survey and Dataset [94.59768013860668]
本稿では,最先端の深層学習に基づく画像着色技術に関する包括的調査を行う。
既存の着色技法を7つのクラスに分類し、その性能を規定する重要な要因について論じる。
我々は既存のデータセットと提案した画像の両方を用いて、既存の画像のカラー化手法を広範囲に実験的に評価する。
論文 参考訳(メタデータ) (2020-08-25T01:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。