論文の概要: Color Names in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.22524v1
- Date: Fri, 26 Sep 2025 16:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.570028
- Title: Color Names in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける色名
- Authors: Alexandra Gomez-Villa, Pablo Hernández-Cámara, Muhammad Atif Butt, Valero Laparra, Jesus Malo, Javier Vazquez-Corral,
- Abstract要約: 視覚言語モデル(VLM)におけるカラー命名機能の最初の体系的評価について述べる。
以上の結果から,VLMは古典的な研究から色に対して高い精度が得られる一方で,拡張された非原型カラーセットでは性能が著しく低下することが示唆された。
我々は、すべてのモデルに一貫して現れる21の共通色項を特定し、2つの異なるアプローチを明らかにした。
- 参考スコア(独自算出の注目度): 48.847573209643265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Color serves as a fundamental dimension of human visual perception and a primary means of communicating about objects and scenes. As vision-language models (VLMs) become increasingly prevalent, understanding whether they name colors like humans is crucial for effective human-AI interaction. We present the first systematic evaluation of color naming capabilities across VLMs, replicating classic color naming methodologies using 957 color samples across five representative models. Our results show that while VLMs achieve high accuracy on prototypical colors from classical studies, performance drops significantly on expanded, non-prototypical color sets. We identify 21 common color terms that consistently emerge across all models, revealing two distinct approaches: constrained models using predominantly basic terms versus expansive models employing systematic lightness modifiers. Cross-linguistic analysis across nine languages demonstrates severe training imbalances favoring English and Chinese, with hue serving as the primary driver of color naming decisions. Finally, ablation studies reveal that language model architecture significantly influences color naming independent of visual processing capabilities.
- Abstract(参考訳): 色は人間の視覚知覚の基本的な次元であり、物体やシーンについてコミュニケーションする主要な手段である。
視覚言語モデル(VLM)がますます普及するにつれて、人間のような色の名前が効果的な人間とAIの相互作用に欠かせないかを理解することが重要である。
本稿では,VLMにおけるカラー命名機能の最初の体系的評価を行い,従来のカラー命名手法を5つの代表モデルにまたがる957色サンプルを用いて再現する。
以上の結果から,VLMは古典研究の原型色に対して高い精度が得られる一方で,拡張された非原型色集合では性能が著しく低下することが示唆された。
我々は、すべてのモデルに一貫して現れる21の共通色項を同定し、2つの異なるアプローチを明らかにした: 主に基本的な用語を用いた制約付きモデルと、体系的な明度変調子を用いた拡張型モデルである。
9言語にわたる言語間の相互言語分析は、英語と中国語が好まれる厳しい訓練の不均衡を示し、色名決定の原動力となっている。
最後に、アブレーション研究により、言語モデルアーキテクチャが視覚処理能力とは無関係に色命名に大きな影響を及ぼすことが明らかとなった。
関連論文リスト
- COLIBRI Fuzzy Model: Color Linguistic-Based Representation and Interpretation [0.0]
本稿では,人間の知覚に基づくファジィカラーモデル(COLIBRI)を導入し,計算色表現と人間の視覚知覚のギャップを埋める。
提案モデルはファジィ集合と論理を用いて色分類のためのフレームワークを作成する。
我々の発見は、デザイン、人工知能、マーケティング、人間とコンピュータの相互作用といった分野において重要である。
論文 参考訳(メタデータ) (2025-07-15T17:01:45Z) - ColorFoil: Investigating Color Blindness in Large Vision and Language Models [0.0]
我々は新しいV&LベンチマークであるColorFoilを紹介する。
私たちはCLIP、VLT、GroupViT、BridgeTowerを含む最先端V&Lモデル7つのモデルを評価した。
論文 参考訳(メタデータ) (2024-05-19T22:04:57Z) - Generation Of Colors using Bidirectional Long Short Term Memory Networks [0.0]
人間の視覚は、200万から700万の識別可能な色合いと推定される、幅広い色のスペクトルを区別することができる。
この研究は、無数の陰影に対する視覚的認識と、それらを正確に表現し、命名する能力のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2023-11-11T11:35:37Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。