論文の概要: Diagnosing Vision Language Models' Perception by Leveraging Human Methods for Color Vision Deficiencies
- arxiv url: http://arxiv.org/abs/2505.17461v1
- Date: Fri, 23 May 2025 04:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.814326
- Title: Diagnosing Vision Language Models' Perception by Leveraging Human Methods for Color Vision Deficiencies
- Title(参考訳): 色覚障害に対するヒューマン・メソッドの活用による視覚言語モデルの認識
- Authors: Kazuki Hayashi, Shintaro Ozaki, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: 石原テストを用いて,視覚言語モデルによる個人レベルの知覚変動を推定する能力を評価する。
以上の結果から,LVLMは自然言語で色覚障害を説明できるが,画像ベースタスクにおいてCVDが色知覚に与える影響をシミュレートすることはできない。
- 参考スコア(独自算出の注目度): 23.761989930955522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision Language Models (LVLMs) are increasingly being applied to a wide range of real-world multimodal applications, involving complex visual and linguistic reasoning. As these models become more integrated into practical use, they are expected to handle complex aspects of human interaction. Among these, color perception is a fundamental yet highly variable aspect of visual understanding. It differs across individuals due to biological factors such as Color Vision Deficiencies (CVDs), as well as differences in culture and language. Despite its importance, perceptual diversity has received limited attention. In our study, we evaluate LVLMs' ability to account for individual level perceptual variation using the Ishihara Test, a widely used method for detecting CVDs. Our results show that LVLMs can explain CVDs in natural language, but they cannot simulate how people with CVDs perceive color in image based tasks. These findings highlight the need for multimodal systems that can account for color perceptual diversity and support broader discussions on perceptual inclusiveness and fairness in multimodal AI.
- Abstract(参考訳): 大規模ビジョン言語モデル(LVLM)は、複雑な視覚的および言語的推論を含む、幅広い実世界のマルチモーダルアプリケーションに適用されつつある。
これらのモデルが実用化されるにつれて、人間のインタラクションの複雑な側面を扱うことが期待されている。
これらのうち、色知覚は視覚的理解の基本的な側面であるが非常に可変的な側面である。
色覚障害(CVD)などの生物学的要因や、文化や言語の違いにより個人によって異なる。
その重要性にもかかわらず、知覚の多様性は限定的に注目されている。
本研究は, CVD検出法として広く用いられている石原テストを用いて, LVLMの個人レベルの知覚変動を推定する能力について検討した。
以上の結果から,LVLMは自然言語でCVDを説明できるが,画像ベースタスクにおけるCVDの色の知覚をシミュレートすることはできない。
これらの知見は、色知覚多様性を説明できるマルチモーダルシステムの必要性を強調し、マルチモーダルAIにおける知覚包摂性と公正性に関する広範な議論を支援する。
関連論文リスト
- Visual Language Models show widespread visual deficits on neuropsychological tests [0.0]
神経心理学のツールキットを用いて3つの最先端ビジュアル言語モデル(VLM)の能力を評価する。
臨床的に有意と思われる低位・中位の視覚能力に広範な欠陥がみられた。
これらの選択的欠陥は、検証されたテストバッテリーを通してプロファイルされ、人間には明示的な訓練を必要としない基礎的な視覚概念を発達させることなく、人工知能が複雑な物体認識を達成できることを示唆している。
論文 参考訳(メタデータ) (2025-04-15T01:04:56Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。