論文の概要: IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
- arxiv url: http://arxiv.org/abs/2505.12000v1
- Date: Sat, 17 May 2025 13:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.982238
- Title: IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
- Title(参考訳): IQBench:「スマート」はどのようにビジョンランゲージモデルか? : IQテストによる検討
- Authors: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy,
- Abstract要約: 標準化されたビジュアルIQテストにおいてビジョン言語モデルを評価するために設計された新しいベンチマークである*IQBench*を紹介する。
我々はVLMの推論能力を評価することに集中しており、最終的な予測の精度よりも重要であると我々は主張する。
- 参考スコア(独自算出の注目度): 1.1142124321313052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large Vision-Language Models (VLMs) have demonstrated remarkable performance in a wide range of multimodal tasks, their true reasoning capabilities on human IQ tests remain underexplored. To advance research on the fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the reasoning capabilities of VLMs, which we argue are more important than the accuracy of the final prediction. **Our benchmark is visually centric, minimizing the dependence on unnecessary textual content**, thus encouraging models to derive answers primarily from image-based information rather than learned textual knowledge. To this end, we manually collected and annotated 500 visual IQ questions to **prevent unintentional data leakage during training**. Unlike prior work that focuses primarily on the accuracy of the final answer, we evaluate the reasoning ability of the models by assessing their explanations and the patterns used to solve each problem, along with the accuracy of the final prediction and human evaluation. Our experiments show that there are substantial performance disparities between tasks, with models such as `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest average accuracies of 0.615, 0.578, and 0.548, respectively. However, all models struggle with 3D spatial and anagram reasoning tasks, highlighting significant limitations in current VLMs' general reasoning abilities. In terms of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieved top averages of 0.696, 0.586, and 0.516, respectively. These results highlight inconsistencies between the reasoning processes of the models and their final answers, emphasizing the importance of evaluating the accuracy of the reasoning in addition to the final predictions.
- Abstract(参考訳): 大きなビジョン・ランゲージ・モデル(VLM)は、広範囲のマルチモーダルタスクにおいて顕著な性能を示したが、人間のIQテストにおける真の推論能力は未解明のままである。
VLMの流体インテリジェンスの研究を進めるために、標準化されたビジュアルIQテストにおいてVLMを評価するために設計された新しいベンチマーク*IQBench*を導入する。
我々はVLMの推論能力を評価することに集中しており、最終的な予測の精度よりも重要であると我々は主張する。
われわれのベンチマークは視覚中心であり、不要なテキストコンテンツへの依存を最小限に抑えている*。
この目的のために、500のビジュアルIQ質問を手動で収集し、注釈付けして*トレーニング中に意図しないデータ漏洩を防ぐ**。
最終回答の正確さを主眼とする先行研究とは違い,各問題の解法やパターンを,最終予測の正確さや人的評価とともに評価することで,モデルの推論能力を評価する。
実験の結果,「o4-mini」,「gemini-2.5-flash」,「claude-3.7-sonnet」などのモデルでは,それぞれ0.615,0.578,0.548と高い平均精度を達成した。
しかしながら、全てのモデルは3次元空間的推論タスクとアナグラム推論タスクに苦労し、現在のVLMの一般的な推論能力に重大な制限を課している。
推論スコアでは、'o4-mini` と `gemini-2.5-flash` と `claude-3.7-sonnet` はそれぞれ 0.696 と 0.586 と 0.516 である。
これらの結果は、最終的な予測に加えて、推論の正確性を評価することの重要性を強調し、モデルの推論プロセスと最終的な回答との矛盾を浮き彫りにする。
関連論文リスト
- ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events [33.51522765443546]
BlackSwanSuiteは、予期しない事象を推論する視覚言語モデルの能力を評価するためのベンチマークである。
我々は,3,800 MCQ,4,900 生成,6,700 のイエス/ノー質問からなる総合的なベンチマークスイートを1,655 本の動画にまとめてキュレートする。
これらのタスクでは、人間から最大32%のパフォーマンスギャップが見られます。
論文 参考訳(メタデータ) (2024-12-07T19:19:03Z) - DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models [19.787224412654872]
In-deepth Assessment of Vision-Language Models (VLMs) のための動的視覚数学ベンチマークであるDynaMathを紹介する。
DynaMathには501の高品質でマルチトピックなシード質問が含まれており、それぞれがPythonプログラムとして表現されている。
その結果,10変種すべてにおいて正解された種子質問の割合として定義される最悪のモデル精度は,平均値よりも有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:29:19Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。