論文の概要: Vision language models are blind
- arxiv url: http://arxiv.org/abs/2407.06581v4
- Date: Thu, 25 Jul 2024 04:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:37:36.617878
- Title: Vision language models are blind
- Title(参考訳): 視覚言語モデルは盲目です
- Authors: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen,
- Abstract要約: 視覚能力を備えた大規模言語モデル(VLM)は、人間にとって容易な低レベルの視覚タスクに、驚くほど苦戦している。
最先端の4つのVLMは平均して58.57%しか正確ではない。
画像解像度と線幅の異なるVLMは、正確な空間情報を必要とするタスクに一貫して苦労する。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, are powering various image-text applications and scoring high on many vision-understanding benchmarks, we find that they are surprisingly still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.57% accurate on average. Claude 3.5 Sonnet performs the best at 74.01% accuracy, but this is still far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs consistently struggle with tasks that require precise spatial information and recognizing geometric primitives that overlap or are close together. Code and data are available at: https://vlmsareblind.github.io
- Abstract(参考訳): 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、様々な画像テキストアプリケーションに電力を供給し、多くの視覚に基づくベンチマークで高いスコアを得ているが、それでも驚くほど人間にとって容易な低レベルの視覚タスクに苦戦している。
具体的には、BlindTestでは、識別のような非常に単純な7つのタスクからなるスイートです。
(a) 2つの円が重複するか否か
(b)二つの線が交差するか否か
(c)どの文字が一言で丸められているか、
(d) オリンピックのようなロゴの円を数えると、4つの最先端のVLMは平均して58.57%しか正確ではない。
クロード3.5 ソネットは74.01%の精度で最高の成績を収めているが、これは人間の予想した100%の精度とは程遠い。
画像解像度と線幅の異なるVLMは、正確な空間情報を必要とし、重なり合う、または近接している幾何学的プリミティブを認識するタスクに一貫して苦労する。
コードとデータは、https://vlmsareblind.github.ioで公開されている。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - BLINK: Multimodal Large Language Models Can See but Not Perceive [96.42283517696535]
Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。
Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。
GPT-4V と Gemini は 51.26% と 45.72% であり、ランダムな推測よりも 13.17% と 7.63% 高い。
論文 参考訳(メタデータ) (2024-04-18T17:59:54Z) - IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文 参考訳(メタデータ) (2024-03-23T23:06:32Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training [10.786853837756686]
我々は、textbfDenseレベル表現学習(G2D)のための、textbfGlobalという新しい医用ビジョン言語事前学習フレームワークを提案する。
G2Dは,大域的視覚言語アライメントと並行して,擬似セグメンテーションタスクを通じて,密で意味的な画像表現を学習する。
G2Dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-03T22:44:04Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2023-01-27T15:45:03Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。