論文の概要: VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues
- arxiv url: http://arxiv.org/abs/2502.12084v2
- Date: Mon, 24 Feb 2025 04:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:12.479444
- Title: VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues
- Title(参考訳): VLM$^2$-Bench: VLMがビジュアルクイズとマッチする明示的なリンクをいかにうまくリンクするか
- Authors: Jianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R. Fung,
- Abstract要約: VLM$2$-Benchは、視覚言語モデルがマッチングキューを視覚的にリンクできるかどうかを評価するために設計されたベンチマークである。
我々は、モデルが視覚的手がかりをリンクする能力において重要な課題を特定し、GPT-4oでさえ人間より34.80%遅れている重要なパフォーマンスギャップを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 34.95077625513563
- License:
- Abstract: Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM$^2$-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models' ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models' ability to independently structure and infer relationships among visual cues.
- Abstract(参考訳): 一致する手がかりを視覚的にリンクすることは、その手がかりに基づいて複数の写真に同一人物を識別するなど、日常生活において重要な機能である。
視覚言語モデル(VLM)が持つ豊富な知識にもかかわらず、この基本的な課題を遂行できるかどうかは明らかになっていない。
これを解決するために、VLM$^2$-Benchというベンチマークを導入する。これは、VLMが9つのサブタスクと3000以上のテストケースで、視覚的にマッチングキューをリンクできるかどうかを評価するために設計されたベンチマークである。
8つのオープンソース VLM と GPT-4o の包括的評価と、様々な言語側および視覚側プロンプト手法のさらなる分析により、合計8つの重要な結果が得られた。
我々は、モデルが視覚的手がかりをリンクする能力において重要な課題を特定し、GPT-4oでさえ人間より34.80%遅れている重要なパフォーマンスギャップを浮き彫りにしている。
これらの洞察に基づいて、我々は主張する
一 適応性の向上及び事前知識への依存の軽減を図るため、中核的な視覚能力の向上。
2不必要なバイアスを避けるため、視覚中心のタスクに言語に基づく推論を統合するための明確な原則を確立すること。
三 視覚訓練のパラダイムを、モデルが独立して構成し、視覚的手がかり間の関係を推測する能力を育むよう転換すること。
関連論文リスト
- ChineseSimpleVQA -- "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。