論文の概要: Vision language models are blind: Failing to translate detailed visual features into words
- arxiv url: http://arxiv.org/abs/2407.06581v6
- Date: Thu, 27 Mar 2025 16:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:09.361905
- Title: Vision language models are blind: Failing to translate detailed visual features into words
- Title(参考訳): 視覚言語モデルが盲目:詳細な視覚的特徴を単語に翻訳できない
- Authors: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen,
- Abstract要約: 視覚能力を持つ大規模言語モデル(VLM)は、人間にとって容易な低レベルの視覚タスクに苦労する。
BlindTestでは、4つの最先端VLMが平均58.07%の精度しか示していない。
クロード3.5ソンネットは77.84%の精度で最高の成績を収めている。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License:
- Abstract: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, score high on many vision-understanding benchmarks, they are still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks, including identifying (a) whether two circles overlap; (b) how many times two lines intersect; (c) which letter is being circled in a word; and (d) the number of circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.07% accurate on average. Claude 3.5 Sonnet performs the best at 77.84% accuracy, far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs including slow-thinking models consistently struggle with those tasks that require precise spatial information when geometric primitives overlap or are close. Yet, VLMs perform at near-100% accuracy when much more space is added to separate shapes and letters. Linear probing experiments show that vision encoders contain sufficient visual information to solve BlindTest and that language models fail to decode this information into correct answers. Code and data are at: https://vlmsareblind.github.io
- Abstract(参考訳): 視覚能力を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、多くの視力に基づくベンチマークで高いスコアを得ているが、それでも人間にとって容易な低レベルの視覚タスクに苦戦している。
具体的には、BlindTestでは、識別を含む7つの非常に単純なタスクのスイートです。
(a) 2つの円が重複するか否か
(b)二本の線が交わる回数
(c)どの文字が一言で丸められているか、
(d) オリンピックのようなロゴの円の数、最先端の4つのVLMの平均精度は58.07%である。
クロード3.5ソンネットは77.84%の精度で最高の成績を収めている。
画像解像度や線幅の異なるVLMは、幾何的プリミティブが重なり合う場合や近接している場合、正確な空間情報を必要とするタスクと常に競合する。
しかし、VLMは、異なる形状や文字により多くのスペースを追加すると、ほぼ100%の精度で動作します。
線形探索実験により、視覚エンコーダはBlindTestを解くのに十分な視覚情報を含み、言語モデルはこれらの情報を正しい答えにデコードすることができないことが示された。
コードとデータは以下の通り。
関連論文リスト
- Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Assessing and Learning Alignment of Unimodal Vision and Language Models [24.27638318837459]
本稿では,線形探索にインスパイアされた直接評価手法を提案し,視覚言語アライメントの評価を行う。
次に、下流の視覚言語タスクのために、トレーニング済みのアンモダルビジョンと言語モデルを調整する効率的なトランスファー学習フレームワークであるSwift Alignment of Image and Language(SAIL)を紹介します。
SAILはImageNet(vs.CLIPの72.7%)で73.4%のゼロショット精度を実現し、ゼロショット検索、複雑な推論、セマンティックセグメンテーションに優れる。
論文 参考訳(メタデータ) (2024-12-05T21:04:58Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - BLINK: Multimodal Large Language Models Can See but Not Perceive [96.42283517696535]
Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。
Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。
GPT-4V と Gemini は 51.26% と 45.72% であり、ランダムな推測よりも 13.17% と 7.63% 高い。
論文 参考訳(メタデータ) (2024-04-18T17:59:54Z) - IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文 参考訳(メタデータ) (2024-03-23T23:06:32Z) - G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training [10.786853837756686]
我々は、textbfDenseレベル表現学習(G2D)のための、textbfGlobalという新しい医用ビジョン言語事前学習フレームワークを提案する。
G2Dは,大域的視覚言語アライメントと並行して,擬似セグメンテーションタスクを通じて,密で意味的な画像表現を学習する。
G2Dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-03T22:44:04Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。