論文の概要: VisNumBench: Evaluating Number Sense of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.14939v1
- Date: Wed, 19 Mar 2025 07:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:44.139154
- Title: VisNumBench: Evaluating Number Sense of Multimodal Large Language Models
- Title(参考訳): VisNumBench: マルチモーダル大言語モデルの数値センスの評価
- Authors: Tengjin Weng, Jingyi Wang, Wenhao Jiang, Zhong Ming,
- Abstract要約: MLLM(Multimodal Large Language Models)の数値知覚能力は,幅広い視覚的数値的タスクにおいて評価される。
VisNumBench は約 1,900 個の質問応答対で構成されている。
Qwen2.5-VLやInternVL2.5といったオープンソースのモデルを含む、私たちがテストした17のMLLMは、数感覚に関連したタスクにおいて、人間のレベルよりも大幅に低いパフォーマンスを実現しました。
- 参考スコア(独自算出の注目度): 15.349647348491938
- License:
- Abstract: Can Multimodal Large Language Models (MLLMs) develop an intuitive number sense similar to humans? Targeting this problem, we introduce Visual Number Benchmark (VisNumBench) to evaluate the number sense abilities of MLLMs across a wide range of visual numerical tasks. VisNumBench consists of about 1,900 multiple-choice question-answer pairs derived from both synthetic and real-world visual data, covering seven visual numerical attributes and four types of visual numerical estimation tasks. Our experiments on VisNumBench led to the following key findings: (i) The 17 MLLMs we tested, including open-source models such as Qwen2.5-VL and InternVL2.5, as well as proprietary models like GPT-4o and Gemini 2.0 Flash, perform significantly below human levels in number sense-related tasks. (ii) Multimodal mathematical models and multimodal chain-of-thought (CoT) models did not exhibit significant improvements in number sense abilities. (iii) Stronger MLLMs with larger parameter sizes and broader general abilities demonstrate modest gains in number sense abilities. We believe VisNumBench will serve as a valuable resource for the research community, encouraging further advancements in enhancing MLLMs' number sense abilities. All benchmark resources, including code and datasets, will be publicly available at https://wwwtttjjj.github.io/VisNumBench/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、人間に似た直感的な数感覚を発達させることができるか?
そこで本稿では,MLLMの数値知覚能力を評価するために,視覚数値ベンチマーク(VisNumBench)を導入する。
VisNumBenchは、合成および実世界のビジュアルデータから派生した、約1,900の多重選択質問応答ペアで構成されており、7つの視覚的数値属性と4種類の視覚的数値推定タスクを含んでいる。
VisNumBenchに関する我々の実験は、以下の重要な発見につながった。
i) Qwen2.5-VLやInternVL2.5といったオープンソースのモデルや、GPT-4oやGemini 2.0 Flashといったプロプライエタリなモデルを含む、テストした17のMLLMは、数感覚関連のタスクにおいて、人間のレベルよりも大幅に低いパフォーマンスを実現しています。
(II)マルチモーダル数学的モデルとマルチモーダル・チェーン・オブ・シント(CoT)モデルは,数感覚能力に有意な改善を示さなかった。
(3)より大きいパラメータサイズとより広い汎用能力を持つMLLMは、数感覚能力の適度な向上を示す。
我々は、VisNumBenchが研究コミュニティにとって貴重な資源となり、MLLMの数感覚能力のさらなる向上を奨励すると考えている。
コードやデータセットを含むすべてのベンチマークリソースはhttps://wwwtttjj.github.io/VisNumBench/で公開される。
関連論文リスト
- Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities [3.196398766265106]
本稿では,MLLM(Multimodal Large Language Models)の論理的理解とコード生成能力を評価するためのベンチマークであるCode-Visionを紹介する。
MLLMに対して、所定のフローチャートに基づいて、特定の機能要件を満たす正しいプログラムを生成するよう要求する。
実験の結果,プロプライエタリモデルとオープンソースモデルには大きな性能差があることが示されている。
論文 参考訳(メタデータ) (2025-02-17T14:25:45Z) - Do Multimodal Large Language Models See Like Humans? [50.938168841711445]
MLLM(Multimodal Large Language Models)は、様々なビジョンタスクにおいて、近年の大規模言語モデルの進歩を生かして、印象的な成果を上げている。
MLLMは人間と同じような視覚情報を知覚しているか?
HVSBenchは、人間の視覚を反映する基本的な視覚タスクにおいて、MLLMと人間の視覚システム(HVS)の整合性を評価するために設計された大規模なベンチマークである。
論文 参考訳(メタデータ) (2024-12-12T18:59:25Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。