論文の概要: MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts
- arxiv url: http://arxiv.org/abs/2310.02255v3
- Date: Sun, 21 Jan 2024 03:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:42:19.623269
- Title: MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts
- Title(参考訳): MathVista:ビジュアルコンテキストにおける基礎モデルの数学的推論の評価
- Authors: Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh
Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
- Abstract要約: MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
- 参考スコア(独自算出の注目度): 170.01089233942594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Large Multimodal Models (LMMs) exhibit
impressive problem-solving skills in many tasks and domains, but their ability
in mathematical reasoning in visual contexts has not been systematically
studied. To bridge this gap, we present MathVista, a benchmark designed to
combine challenges from diverse mathematical and visual tasks. It consists of
6,141 examples, derived from 28 existing multimodal datasets involving
mathematics and 3 newly created datasets (i.e., IQTest, FunctionQA, and
PaperQA). Completing these tasks requires fine-grained, deep visual
understanding and compositional reasoning, which all state-of-the-art
foundation models find challenging. With MathVista, we have conducted a
comprehensive, quantitative evaluation of 12 prominent foundation models. The
best-performing GPT-4V model achieves an overall accuracy of 49.9%,
substantially outperforming Bard, the second-best performer, by 15.1%. Our
in-depth analysis reveals that the superiority of GPT-4V is mainly attributed
to its enhanced visual perception and mathematical reasoning. However, GPT-4V
still falls short of human performance by 10.4%, as it often struggles to
understand complex figures and perform rigorous reasoning. This significant gap
underscores the critical role that MathVista will play in the development of
general-purpose AI agents capable of tackling mathematically intensive and
visually rich real-world tasks. We further explore the new ability of
self-verification, the application of self-consistency, and the interactive
chatbot capabilities of GPT-4V, highlighting its promising potential for future
research. The project is available at https://mathvista.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)とLMM(Large Multimodal Models)は多くのタスクや領域において優れた問題解決能力を示すが、視覚的文脈における数学的推論の能力は体系的に研究されていない。
このギャップを埋めるために,さまざまな数学的タスクと視覚的タスクの課題を組み合わせるためのベンチマークであるmathvistaを提案する。
数学を含む28の既存のマルチモーダルデータセットと新たに作成された3つのデータセット(IQTest、FunctionQA、PaperQA)から派生した6,141の例で構成されている。
これらのタスクを補完するには、きめ細かい、深い視覚的理解と構成的推論が必要です。
MathVistaでは,12の著名な基礎モデルの包括的,定量的評価を行った。
gpt-4vモデル全体の精度は49.9%で、第2位であるbardを15.1%上回っている。
分析の結果,gpt-4vの優位は,視覚知覚の強化と数学的推論が主因であることが判明した。
しかし、gpt-4vは複雑な数値の理解や厳密な推論に苦しむことが多いため、まだ人間のパフォーマンスには10.4%不足している。
この大きなギャップは、MathVistaが数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において果たす重要な役割を浮き彫りにする。
さらに, 自己検証の新たな能力, 自己整合性の適用, GPT-4Vの対話型チャットボット機能について検討し, 今後の研究の可能性を明らかにする。
プロジェクトはhttps://mathvista.github.io/で入手できる。
関連論文リスト
- DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models [19.787224412654872]
In-deepth Assessment of Vision-Language Models (VLMs) のための動的視覚数学ベンチマークであるDynaMathを紹介する。
DynaMathには501の高品質でマルチトピックなシード質問が含まれており、それぞれがPythonプログラムとして表現されている。
その結果,10変種すべてにおいて正解された種子質問の割合として定義される最悪のモデル精度は,平均値よりも有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:29:19Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。