論文の概要: Color Names in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.22524v1
- Date: Fri, 26 Sep 2025 16:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.570028
- Title: Color Names in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける色名
- Authors: Alexandra Gomez-Villa, Pablo Hernández-Cámara, Muhammad Atif Butt, Valero Laparra, Jesus Malo, Javier Vazquez-Corral,
- Abstract要約: 視覚言語モデル(VLM)におけるカラー命名機能の最初の体系的評価について述べる。
以上の結果から,VLMは古典的な研究から色に対して高い精度が得られる一方で,拡張された非原型カラーセットでは性能が著しく低下することが示唆された。
我々は、すべてのモデルに一貫して現れる21の共通色項を特定し、2つの異なるアプローチを明らかにした。
- 参考スコア(独自算出の注目度): 48.847573209643265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Color serves as a fundamental dimension of human visual perception and a primary means of communicating about objects and scenes. As vision-language models (VLMs) become increasingly prevalent, understanding whether they name colors like humans is crucial for effective human-AI interaction. We present the first systematic evaluation of color naming capabilities across VLMs, replicating classic color naming methodologies using 957 color samples across five representative models. Our results show that while VLMs achieve high accuracy on prototypical colors from classical studies, performance drops significantly on expanded, non-prototypical color sets. We identify 21 common color terms that consistently emerge across all models, revealing two distinct approaches: constrained models using predominantly basic terms versus expansive models employing systematic lightness modifiers. Cross-linguistic analysis across nine languages demonstrates severe training imbalances favoring English and Chinese, with hue serving as the primary driver of color naming decisions. Finally, ablation studies reveal that language model architecture significantly influences color naming independent of visual processing capabilities.
- Abstract(参考訳): 色は人間の視覚知覚の基本的な次元であり、物体やシーンについてコミュニケーションする主要な手段である。
視覚言語モデル(VLM)がますます普及するにつれて、人間のような色の名前が効果的な人間とAIの相互作用に欠かせないかを理解することが重要である。
本稿では,VLMにおけるカラー命名機能の最初の体系的評価を行い,従来のカラー命名手法を5つの代表モデルにまたがる957色サンプルを用いて再現する。
以上の結果から,VLMは古典研究の原型色に対して高い精度が得られる一方で,拡張された非原型色集合では性能が著しく低下することが示唆された。
我々は、すべてのモデルに一貫して現れる21の共通色項を同定し、2つの異なるアプローチを明らかにした: 主に基本的な用語を用いた制約付きモデルと、体系的な明度変調子を用いた拡張型モデルである。
9言語にわたる言語間の相互言語分析は、英語と中国語が好まれる厳しい訓練の不均衡を示し、色名決定の原動力となっている。
最後に、アブレーション研究により、言語モデルアーキテクチャが視覚処理能力とは無関係に色命名に大きな影響を及ぼすことが明らかとなった。
関連論文リスト
- ColorConceptBench: A Benchmark for Probabilistic Color-Concept Understanding in Text-to-Image Models [20.130253460357547]
そこで本研究では,カラーコンセプション関連性を評価するための新しい人間アノテーション付きベンチマークであるColorConceptBenchを紹介する。
7つの主要なテキスト・ツー・イメージ(T2I)モデルについて評価した結果,現在のモデルでは抽象的意味論に対する感受性が欠如していることが判明した。
これは、人間のような色のセマンティクスを達成するには、より大きなモデル以上のものが必要であることを示している。
論文 参考訳(メタデータ) (2026-01-23T15:36:02Z) - COLIBRI Fuzzy Model: Color Linguistic-Based Representation and Interpretation [0.0]
本稿では,人間の知覚に基づくファジィカラーモデル(COLIBRI)を導入し,計算色表現と人間の視覚知覚のギャップを埋める。
提案モデルはファジィ集合と論理を用いて色分類のためのフレームワークを作成する。
我々の発見は、デザイン、人工知能、マーケティング、人間とコンピュータの相互作用といった分野において重要である。
論文 参考訳(メタデータ) (2025-07-15T17:01:45Z) - Color in Visual-Language Models: CLIP deficiencies [1.0159205678719043]
この研究は、現在人工知能において最も影響力のあるVML(ビジュアル言語モデル)であるCLIP(Contrastive Language- Image Pre-training)において、色がどのようにコード化されているかを探る。
a)色の概念にあまり関係のない無彩色刺激に対する明確な偏見、(b)他の視覚情報よりもテキストを優先する傾向である。
論文 参考訳(メタデータ) (2025-02-06T19:38:12Z) - L-C4: Language-Based Video Colorization for Creative and Consistent Color [59.069498113050436]
創造的・一貫性のある色(L-C4)のための言語ベースビデオカラー化を提案する。
我々のモデルは、事前訓練された相互モダリティ生成モデルに基づいて構築される。
本研究では,フリックやカラーシフトを防止するために時間的に変形可能な注意点と,長期のカラー一貫性を維持するためにクロスクリップ融合を提案する。
論文 参考訳(メタデータ) (2024-10-07T12:16:21Z) - ColorFoil: Investigating Color Blindness in Large Vision and Language Models [0.0]
我々は新しいV&LベンチマークであるColorFoilを紹介する。
私たちはCLIP、VLT、GroupViT、BridgeTowerを含む最先端V&Lモデル7つのモデルを評価した。
論文 参考訳(メタデータ) (2024-05-19T22:04:57Z) - Generation Of Colors using Bidirectional Long Short Term Memory Networks [0.0]
人間の視覚は、200万から700万の識別可能な色合いと推定される、幅広い色のスペクトルを区別することができる。
この研究は、無数の陰影に対する視覚的認識と、それらを正確に表現し、命名する能力のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2023-11-11T11:35:37Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。