論文の概要: ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
- arxiv url: http://arxiv.org/abs/2504.10514v1
- Date: Thu, 10 Apr 2025 16:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:30.937497
- Title: ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
- Title(参考訳): ColorBench: VLMは色豊かな世界を見ることができるか? 色知覚、推論、ロバストネスのための総合的なベンチマーク
- Authors: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou,
- Abstract要約: 視覚言語モデル(VLM)が人間の色を知覚し、理解し、活用できるかどうかは不明である。
本稿では,色理解におけるVLMの性能を評価するベンチマークであるColorBenchを紹介する。
- 参考スコア(独自算出の注目度): 23.857004537384
- License:
- Abstract: Color plays an important role in human perception and usually provides critical clues in visual reasoning. However, it is unclear whether and how vision-language models (VLMs) can perceive, understand, and leverage color as humans. This paper introduces ColorBench, an innovative benchmark meticulously crafted to assess the capabilities of VLMs in color understanding, including color perception, reasoning, and robustness. By curating a suite of diverse test scenarios, with grounding in real applications, ColorBench evaluates how these models perceive colors, infer meanings from color-based cues, and maintain consistent performance under varying color transformations. Through an extensive evaluation of 32 VLMs with varying language models and vision encoders, our paper reveals some undiscovered findings: (i) The scaling law (larger models are better) still holds on ColorBench, while the language model plays a more important role than the vision encoder. (ii) However, the performance gaps across models are relatively small, indicating that color understanding has been largely neglected by existing VLMs. (iii) CoT reasoning improves color understanding accuracies and robustness, though they are vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on ColorBench but they can also mislead models in some tasks. These findings highlight the critical limitations of current VLMs and underscore the need to enhance color comprehension. Our ColorBenchcan serve as a foundational tool for advancing the study of human-level color understanding of multimodal AI.
- Abstract(参考訳): 色は人間の知覚において重要な役割を担い、通常視覚的推論において重要な手がかりを提供する。
しかしながら、視覚言語モデル(VLM)が人間としての色を知覚し、理解し、活用できるかどうかは不明である。
色知覚, 推論, 堅牢性など, 色理解におけるVLMの能力を評価するために, 精巧に構築された, 革新的なベンチマークであるColorBenchを紹介する。
ColorBenchは、さまざまなテストシナリオのスイートを、実際のアプリケーションに基礎を置くことによって、これらのモデルがどのように色を知覚し、色ベースの手がかりから意味を推測し、色変換の下で一貫したパフォーマンスを維持するかを評価する。
様々な言語モデルと視覚エンコーダを用いた32個のVLMの広範囲な評価を通じて、未発見の発見がいくつか明らかになった。
(i)スケーリング法則(より大きなモデルの方が優れている)はいまだにColorBenchに依存しており、一方言語モデルはビジョンエンコーダよりも重要な役割を果たす。
(II)モデル間の性能差は比較的小さく,既存のVLMでは色認識がほとんど無視されていることが示唆されている。
三 CoT推論は、視覚中心のタスクであるにもかかわらず、色理解の精度と堅牢性を向上させる。
(4)カラー手がかりは実際にColorBench上のVLMによって活用されるが、いくつかのタスクでモデルが誤解されることもある。
これらの知見は、現在のVLMの限界を浮き彫りにして、色理解の強化の必要性を浮き彫りにしている。
私たちのColorBenchcanは、マルチモーダルAIの人間レベルの色理解の研究を進めるための基礎的なツールとして役立ちます。
関連論文リスト
- Probing Perceptual Constancy in Large Vision Language Models [8.826002715344911]
色,サイズ,形状の3領域にわたる253個の実験を用いて,33個の視覚言語モデル(VLM)を評価した。
VLMでは,色や大きさの相違が明らかで,形状の相違が顕著であった。
論文 参考訳(メタデータ) (2025-02-14T16:31:43Z) - Color in Visual-Language Models: CLIP deficiencies [1.0159205678719043]
この研究は、現在人工知能において最も影響力のあるVML(ビジュアル言語モデル)であるCLIP(Contrastive Language- Image Pre-training)において、色がどのようにコード化されているかを探る。
a)色の概念にあまり関係のない無彩色刺激に対する明確な偏見、(b)他の視覚情報よりもテキストを優先する傾向である。
論文 参考訳(メタデータ) (2025-02-06T19:38:12Z) - MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models [60.1668189937952]
MegaCOINは、さまざまなコンテキスト属性を持つEmphrealイメージに基づいた、高品質な人間ラベル付きデータセットである。
MegaCOIN-Instructはビジョン言語モデルの教師付き微調整データセットとして機能し、MegaCOIN-BenchはスタンドアロンのQAデータセットとして使用できる注釈付きテストセットである。
論文 参考訳(メタデータ) (2024-12-05T07:06:17Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - ColorFoil: Investigating Color Blindness in Large Vision and Language Models [0.0]
我々は新しいV&LベンチマークであるColorFoilを紹介する。
私たちはCLIP、VLT、GroupViT、BridgeTowerを含む最先端V&Lモデル7つのモデルを評価した。
論文 参考訳(メタデータ) (2024-05-19T22:04:57Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Pre-Training LiDAR-Based 3D Object Detectors Through Colorization [65.03659880456048]
我々は,データとラベルのギャップを埋めるために,革新的な事前学習手法であるグラウンドドポイントカラー化(GPC)を導入する。
GPCは、LiDAR点雲を色付けし、価値あるセマンティック・キューを装備するモデルを教えている。
KITTIとデータセットの実験結果は、GPCの顕著な効果を示している。
論文 参考訳(メタデータ) (2023-10-23T06:00:24Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。