論文の概要: Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?
- arxiv url: http://arxiv.org/abs/2508.21143v1
- Date: Thu, 28 Aug 2025 18:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.845757
- Title: Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?
- Title(参考訳): マルチモーダルLLMは知覚Vの基本認識問題を解くことができるか?
- Authors: Samrajnee Ghosh, Naman Agarwal, Hemanshu Garg, Chinmay Mittal, Mausam, Parag Singla,
- Abstract要約: 本稿では、7200のプログラム生成画像を含むデータセットPercept-Vを紹介し、30のカテゴリに等しく分割する。
知覚-Vは、MLLMの知覚能力をテストする様々な複雑さの非常に基本的なタスクから構成される。
このデータセットは、GPT-4o、Gemini、Claudeのような最先端のMLLMとOpenAI o4-miniやDeepSeek R1のようなLarge Reasoning Models(LRM)でテストされ、パフォーマンスを測定する。
- 参考スコア(独自算出の注目度): 23.22049250636057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reasoning abilities of Multimodal Large Language Models (MLLMs) have garnered a lot of attention in recent times, with advances made in frontiers like coding, mathematics, and science. However, very limited experiments have been done to assess their performance in simple perception tasks performed over uncontaminated, generated images containing basic shapes and structures. To address this issue, the paper introduces a dataset, Percept-V, containing a total of 7200 program-generated images equally divided into 30 categories, each testing a combination of visual perception skills. Unlike previously proposed datasets, Percept-V comprises very basic tasks of varying complexity that test the perception abilities of MLLMs. This dataset is then tested on state-of-the-art MLLMs like GPT-4o, Gemini, and Claude as well as Large Reasoning Models (LRMs) like OpenAI o4-mini and DeepSeek R1 to gauge their performance. Contrary to the evidence that MLLMs excel in many complex tasks, our experiments show a significant drop in the models' performance with increasing problem complexity across all categories. An analysis of the performances also reveals that the tested MLLMs exhibit a similar trend in accuracy across categories, testing a particular cognitive skill and find some skills to be more difficult than others.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の推論能力は、コーディング、数学、科学といったフロンティアにおける進歩とともに、近年多くの注目を集めている。
しかし, 基本形状と構造を含む非汚染画像に対して行われる単純な知覚タスクにおいて, それらの性能を評価するために, 非常に限定的な実験が実施されている。
この問題に対処するために,約7200個のプログラム生成画像を含むデータセットPercept-Vを紹介した。
以前提案されたデータセットとは異なり、Percept-VはMLLMの知覚能力をテストする様々な複雑さの非常に基本的なタスクで構成されている。
このデータセットは、GPT-4o、Gemini、Claudeのような最先端のMLLMとOpenAI o4-miniやDeepSeek R1のようなLarge Reasoning Models(LRM)でテストされ、パフォーマンスを測定する。
MLLMが多くの複雑なタスクで優れているという証拠とは対照的に、我々の実験ではモデルの性能が著しく低下し、すべてのカテゴリで問題が複雑になる。
パフォーマンスの分析の結果、テストされたMLLMは、カテゴリ間での精度の類似した傾向を示し、特定の認知スキルをテストし、他のものよりも難しいスキルを見つけていることが明らかとなった。
関連論文リスト
- Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。
人間は96.49%の精度を達成し、トップMLLMは50%以下である。
これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-28T13:31:32Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。