論文の概要: Vision language models are blind
- arxiv url: http://arxiv.org/abs/2407.06581v2
- Date: Thu, 11 Jul 2024 15:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 12:07:17.720461
- Title: Vision language models are blind
- Title(参考訳): 視覚言語モデルは盲目です
- Authors: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen,
- Abstract要約: 視覚機能を備えた大規模言語モデル(VLM)は、数え切れないほどの画像テキストアプリケーションを動かしている。
BlindTestは、人間の目で見やすい7つの視覚タスクのスイートです。
4つの最先端のVLMは平均してベンチマークで56.20%しか正確ではなく、ニューソネットが最も正確である(73.77%)。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. We propose BlindTest, a suite of 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. Surprisingly, four state-of-the-art VLMs are, on average, only 56.20% accurate on our benchmark, with \newsonnet being the best (73.77% accuracy). On BlindTest, VLMs struggle with tasks that requires precise spatial information and counting (from 0 to 10), sometimes providing an impression of a person with myopia seeing fine details as blurry and making educated guesses. Code is available at: https://vlmsareblind.github.io/
- Abstract(参考訳): 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、数え切れないほどの画像テキストアプリケーションを動かし、多くの視覚基盤ベンチマークで高いスコアを得ている。
私たちはBlindTestを提案します。BlindTestは、人間を識別するなど、まったく簡単な7つの視覚タスクのスイートです。
(a) 2つの円が重複するか否か
(b)二つの線が交差するか否か
(c)どの文字が一言で丸められているか、
(d)オリンピックのようなロゴの円の数を数える。
驚いたことに、最先端の4つのVLMは平均してベンチマークで56.20%しか正確ではなく、 \newsonnetが最も正確である(73.77%)。
BlindTestでは、VLMは正確な空間情報とカウント(0から10)を必要とするタスクに苦労する。
コードは、https://vlmsareblind.github.io/で入手できる。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - BLINK: Multimodal Large Language Models Can See but Not Perceive [96.42283517696535]
Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。
Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。
GPT-4V と Gemini は 51.26% と 45.72% であり、ランダムな推測よりも 13.17% と 7.63% 高い。
論文 参考訳(メタデータ) (2024-04-18T17:59:54Z) - IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文 参考訳(メタデータ) (2024-03-23T23:06:32Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training [10.786853837756686]
我々は、textbfDenseレベル表現学習(G2D)のための、textbfGlobalという新しい医用ビジョン言語事前学習フレームワークを提案する。
G2Dは,大域的視覚言語アライメントと並行して,擬似セグメンテーションタスクを通じて,密で意味的な画像表現を学習する。
G2Dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-03T22:44:04Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2023-01-27T15:45:03Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。