論文の概要: VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
- arxiv url: http://arxiv.org/abs/2412.00947v2
- Date: Sat, 29 Mar 2025 15:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 15:20:31.102759
- Title: VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information
- Title(参考訳): VisOnlyQA: 大規模視覚言語モデルは、幾何学的情報の視覚的知覚と相容れない
- Authors: Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang,
- Abstract要約: 大規模視覚言語モデル (LVLM) は様々な視覚言語タスクにおいて顕著な性能を発揮している。
本稿では,LVLMの幾何学的知覚を評価するデータセットVisOnlyQAを紹介する。
LVLMは画像の基本的な幾何学的情報を正確に知覚できないことが多いが、人間のパフォーマンスはほぼ完璧である。
- 参考スコア(独自算出の注目度): 9.420776624656144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) have achieved remarkable performance in various vision-language tasks. However, it is still unclear how accurately LVLMs can perceive visual information in images. In particular, the capability of LVLMs to perceive geometric information, such as shape, angle, and size, remains insufficiently analyzed, although the perception of these properties is crucial for tasks that require a detailed visual understanding. In this work, we introduce VisOnlyQA, a dataset for evaluating the geometric perception of LVLMs, and reveal that LVLMs often cannot accurately perceive basic geometric information in images, while human performance is nearly perfect. VisOnlyQA consists of 12 tasks that directly ask about geometric information in geometric shapes, charts, chemical structures, and 3D shapes. Our experiments highlight the following findings: (i) State-of-the-art LVLMs struggle with basic geometric perception -- 20 LVLMs we evaluate, including GPT-4o and Gemini 1.5 Pro, work poorly on VisOnlyQA. (ii) Additional training data does not resolve this issue -- fine-tuning on the training set of VisOnlyQA is not always effective, even for in-distribution tasks. (iii) Bottleneck in the architecture -- LVLMs using stronger LLMs exhibit better geometric perception on VisOnlyQA, while it does not require complex reasoning, suggesting that the way LVLMs process information from visual encoders is a bottleneck. The datasets, code, and model responses are provided at https://github.com/psunlpgroup/VisOnlyQA.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は様々な視覚言語タスクにおいて顕著な性能を発揮している。
しかし、LVLMが画像内の視覚情報をどの程度正確に知覚できるかは、いまだに不明である。
特に、形状、角度、大きさなどの幾何学的情報を知覚するLVLMの能力は、詳細な視覚的理解を必要とするタスクに対しては、これらの特性の認識が不可欠であるにもかかわらず、十分に分析されていない。
本稿では,LVLMの幾何学的知覚を評価するデータセットであるVisOnlyQAを紹介し,人間のパフォーマンスがほぼ完璧であるのに対して,LVLMは画像の基本的な幾何学的情報を正確に知覚できないことが多いことを示す。
VisOnlyQAは、幾何学的形状、チャート、化学構造、三次元形状の幾何学的情報を直接問う12のタスクからなる。
実験では,以下の結果が浮き彫りにされた。
(i)現在最先端のLVLMは、基本的な幾何学的知覚に苦しむ -- GPT-4oやGemini 1.5 Proを含む20のLVLMは、VisOnlyQAではうまく機能しない。
(ii) 追加のトレーニングデータはこの問題を解決しない -- VisOnlyQAのトレーニングセットの微調整は、分散タスクであっても、常に効果的であるとは限らない。
3) アーキテクチャにおけるボトルネック -- より強力なLLMを用いたLVLMは、VisOnlyQAに対してより優れた幾何学的認識を示すが、複雑な推論は必要とせず、LVLMがビジュアルエンコーダから情報を処理する方法がボトルネックであることを示唆している。
データセット、コード、モデル応答はhttps://github.com/psunlpgroup/VisOnlyQA.comで提供されている。
関連論文リスト
- Where do Large Vision-Language Models Look at when Answering Questions? [35.39354978511109]
LVLM(Large Vision-Language Models)は、視覚言語理解と推論タスクにおいて有望な性能を示す。
我々は既存のヒートマップ可視化手法を拡張し、オープンな視覚的質問応答のためのLVLMをサポートする。
我々は,視覚情報を必要とするベンチマークにおいて,最先端のLVLMを包括的に分析する。
論文 参考訳(メタデータ) (2025-03-18T04:34:43Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Targeted Visual Prompting for Medical Visual Question Answering [3.600327818936722]
マルチモーダル・大規模言語モデル(MLLM)は、古典的なモデルアーキテクチャの代替として登場した。
単純な視覚的誤りは、これらのモデルの実際の視覚的理解能力に疑問を投げかけた。
本稿では,MLLMに領域ベースの質問機能を持たせるための視覚的プロンプトを提案する。
論文 参考訳(メタデータ) (2024-08-06T08:58:20Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。