Fugu-MT 論文翻訳(概要): Vision language models are blind

論文の概要: Vision language models are blind

arxiv url: http://arxiv.org/abs/2407.06581v2
Date: Thu, 11 Jul 2024 15:33:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 12:07:17.720461
Title: Vision language models are blind
Title（参考訳）: 視覚言語モデルは盲目です
Authors: Pooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen,
Abstract要約: 視覚機能を備えた大規模言語モデル(VLM)は、数え切れないほどの画像テキストアプリケーションを動かしている。 BlindTestは、人間の目で見やすい7つの視覚タスクのスイートです。 4つの最先端のVLMは平均してベンチマークで56.20%しか正確ではなく、ニューソネットが最も正確である(73.77%)。
参考スコア（独自算出の注目度）: 1.2499537119440245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro are powering countless image-text applications and scoring high on many vision-understanding benchmarks. We propose BlindTest, a suite of 7 visual tasks absurdly easy to humans such as identifying (a) whether two circles overlap; (b) whether two lines intersect; (c) which letter is being circled in a word; and (d) counting the number of circles in a Olympic-like logo. Surprisingly, four state-of-the-art VLMs are, on average, only 56.20% accurate on our benchmark, with \newsonnet being the best (73.77% accuracy). On BlindTest, VLMs struggle with tasks that requires precise spatial information and counting (from 0 to 10), sometimes providing an impression of a person with myopia seeing fine details as blurry and making educated guesses. Code is available at: https://vlmsareblind.github.io/
Abstract（参考訳）: 視覚機能を備えた大規模言語モデル(VLM)、例えば、GPT-4o、Gemini 1.5 Proは、数え切れないほどの画像テキストアプリケーションを動かし、多くの視覚基盤ベンチマークで高いスコアを得ている。私たちはBlindTestを提案します。BlindTestは、人間を識別するなど、まったく簡単な7つの視覚タスクのスイートです。 (a) 2つの円が重複するか否か (b)二つの線が交差するか否か (c)どの文字が一言で丸められているか、 (d)オリンピックのようなロゴの円の数を数える。驚いたことに、最先端の4つのVLMは平均してベンチマークで56.20%しか正確ではなく、 \newsonnetが最も正確である(73.77%)。 BlindTestでは、VLMは正確な空間情報とカウント(0から10)を必要とするタスクに苦労する。コードは、https://vlmsareblind.github.io/で入手できる。

関連論文リスト

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文参考訳（メタデータ） (2025-11-24T18:55:19Z)
VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。非局所的な視覚的推論のための視覚言語モデルの能力を評価する。その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-07-04T23:15:52Z)
Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests [2.0176279176431744]
MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。 GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
論文参考訳（メタデータ） (2025-06-09T04:35:02Z)
Vision Language Models are Biased [2.589765893447591]
大規模言語モデル(LLM)は、ダウンストリームタスクにおいて、インターネットから大量の事前知識を記憶している。一般的な主題に関する知識が視覚言語モデル(VLM)の標準的視覚的タスクにおける精度をいかに損なうかを検証する。
論文参考訳（メタデータ） (2025-05-29T18:47:58Z)
Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。 PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文参考訳（メタデータ） (2025-04-17T17:59:57Z)
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding [59.020450264301026]
VideoLLaMA3は、画像とビデオの理解のためのより高度なマルチモーダル基盤モデルである。 VideoLLaMA3には、視覚適応、視覚言語調整、ファインチューニング、ビデオ中心のファインチューニングの4つのトレーニングステージがある。 VideoLLaMA3は、画像理解ベンチマークとビデオ理解ベンチマークの両方で魅力的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-22T18:59:46Z)
Assessing and Learning Alignment of Unimodal Vision and Language Models [24.27638318837459]
本稿では,線形探索にインスパイアされた直接評価手法を提案し,視覚言語アライメントの評価を行う。次に、下流の視覚言語タスクのために、トレーニング済みのアンモダルビジョンと言語モデルを調整する効率的なトランスファー学習フレームワークであるSwift Alignment of Image and Language(SAIL)を紹介します。 SAILはImageNet(vs.CLIPの72.7%)で73.4%のゼロショット精度を実現し、ゼロショット検索、複雑な推論、セマンティックセグメンテーションに優れる。
論文参考訳（メタデータ） (2024-12-05T21:04:58Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models [40.41276154014666]
このベンチマークは、常識と世界知識を必要とする視覚的謎の視覚モデルと言語モデルをテストすることを目的としたものだ。ベンチマークは400個のビジュアル・ライドルで構成されており、それぞれが様々なテキスト・ツー・イメージ・モデルによって生成されるユニークなイメージを特徴としている。 Gemini-Pro-1.5は40%の精度で、既存のモデルは82%の精度で人間のパフォーマンスにかなり遅れている。
論文参考訳（メタデータ） (2024-07-28T11:56:03Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
BLINK: Multimodal Large Language Models Can See but Not Perceive [96.42283517696535]
Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。 Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。 GPT-4V と Gemini は 51.26% と 45.72% であり、ランダムな推測よりも 13.17% と 7.63% 高い。
論文参考訳（メタデータ） (2024-04-18T17:59:54Z)
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文参考訳（メタデータ） (2024-03-23T23:06:32Z)
SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文参考訳（メタデータ） (2023-12-20T09:19:48Z)
G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training [10.786853837756686]
我々は、textbfDenseレベル表現学習(G2D)のための、textbfGlobalという新しい医用ビジョン言語事前学習フレームワークを提案する。 G2Dは,大域的視覚言語アライメントと並行して,擬似セグメンテーションタスクを通じて,密で意味的な画像表現を学習する。 G2Dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-03T22:44:04Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文参考訳（メタデータ） (2023-05-09T02:52:47Z)
Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。 SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文参考訳（メタデータ） (2023-01-27T15:45:03Z)
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文参考訳（メタデータ） (2022-11-29T15:52:22Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。