論文の概要: The Percept-V Challenge: Can Multimodal LLMs Crack Simple Perception Problems?
- arxiv url: http://arxiv.org/abs/2508.21143v2
- Date: Wed, 08 Oct 2025 07:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.110968
- Title: The Percept-V Challenge: Can Multimodal LLMs Crack Simple Perception Problems?
- Title(参考訳): パーセプションVの課題:マルチモーダルLLMは単純なパーセプション問題に対処できるか?
- Authors: Samrajnee Ghosh, Naman Agarwal, Hemanshu Garg, Chinmay Mittal, Mausam, Parag Singla,
- Abstract要約: 6000個のプログラム生成された未汚染画像を含むデータセットであるPercept-Vを30の領域に分割した。
そのため、ドメインを極めてシンプルにし、それを解決するのに必要な推論と知識を最小限にします。
我々の考えに反して、我々の実験は、Percept-Vの非常に高い人的性能と比較して、SoTAのプロプライエタリかつオープンソースMLLMの弱い性能を示している。
- 参考スコア(独自算出の注目度): 23.22049250636057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive science research treats visual perception, the ability to understand and make sense of a visual input, as one of the early developmental signs of intelligence. Its TVPS-4 framework categorizes and tests human perception into seven skills such as visual discrimination, and form constancy. Do Multimodal Large Language Models (MLLMs) match up to humans in basic perception? Even though there are many benchmarks that evaluate MLLMs on advanced reasoning and knowledge skills, there is limited research that focuses evaluation on simple perception. In response, we introduce Percept-V, a dataset containing 6000 program-generated uncontaminated images divided into 30 domains, where each domain tests one or more TVPS-4 skills. Our focus is on perception, so we make our domains quite simple and the reasoning and knowledge required for solving them are minimal. Since modern-day MLLMs can solve much more complex tasks, our a-priori expectation is that they will solve these domains very easily. Contrary to our belief, our experiments show a weak performance of SoTA proprietary and open-source MLLMs compared to very high human performance on Percept-V. We find that as number of objects in the image increases, performance goes down rather fast. Our experiments also identify the perception skills that are considerably harder for all models.
- Abstract(参考訳): 認知科学研究は、視覚的知覚、視覚的インプットを理解し、理解する能力を、知性の発達初期の兆候の1つとして扱う。
そのTVPS-4フレームワークは、人間の知覚を視覚的識別や形態の一貫性といった7つのスキルに分類し、テストする。
MLLM(Multimodal Large Language Models)は、人間に基本的な知覚で一致するか?
高度な推論と知識スキルに基づいてMLLMを評価するベンチマークは数多く存在するが、単純な知覚に焦点を絞った研究は限られている。
そこで本研究では,プログラム生成した6000個の未汚染画像を含むデータセットPercept-Vを30の領域に分割し,各ドメインが1つ以上のTVPS-4スキルをテストする。
そのため、ドメインを極めてシンプルにし、それを解決するのに必要な推論と知識を最小限にします。
現代のMLLMはより複雑なタスクを解くことができるので、我々はこれらのドメインを非常に簡単に解決できると期待している。
我々の考えに反して、我々の実験は、Percept-Vの非常に高い人的性能と比較して、SoTAのプロプライエタリかつオープンソースMLLMの弱い性能を示している。
画像内のオブジェクト数が増加するにつれて、パフォーマンスがかなり速くなります。
実験では、全てのモデルにとってはるかに難しい知覚スキルも同定した。
関連論文リスト
- Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。
人間は96.49%の精度を達成し、トップMLLMは50%以下である。
これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-28T13:31:32Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。