Fugu-MT 論文翻訳(概要): MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

論文の概要: MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

arxiv url: http://arxiv.org/abs/2310.02255v3
Date: Sun, 21 Jan 2024 03:47:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 20:42:19.623269
Title: MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
Title（参考訳）: MathVista:ビジュアルコンテキストにおける基礎モデルの数学的推論の評価
Authors: Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
Abstract要約: MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
参考スコア（独自算出の注目度）: 170.01089233942594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) and Large Multimodal Models (LMMs) exhibit impressive problem-solving skills in many tasks and domains, but their ability in mathematical reasoning in visual contexts has not been systematically studied. To bridge this gap, we present MathVista, a benchmark designed to combine challenges from diverse mathematical and visual tasks. It consists of 6,141 examples, derived from 28 existing multimodal datasets involving mathematics and 3 newly created datasets (i.e., IQTest, FunctionQA, and PaperQA). Completing these tasks requires fine-grained, deep visual understanding and compositional reasoning, which all state-of-the-art foundation models find challenging. With MathVista, we have conducted a comprehensive, quantitative evaluation of 12 prominent foundation models. The best-performing GPT-4V model achieves an overall accuracy of 49.9%, substantially outperforming Bard, the second-best performer, by 15.1%. Our in-depth analysis reveals that the superiority of GPT-4V is mainly attributed to its enhanced visual perception and mathematical reasoning. However, GPT-4V still falls short of human performance by 10.4%, as it often struggles to understand complex figures and perform rigorous reasoning. This significant gap underscores the critical role that MathVista will play in the development of general-purpose AI agents capable of tackling mathematically intensive and visually rich real-world tasks. We further explore the new ability of self-verification, the application of self-consistency, and the interactive chatbot capabilities of GPT-4V, highlighting its promising potential for future research. The project is available at https://mathvista.github.io/.
Abstract（参考訳）: 大規模言語モデル(LLM)とLMM(Large Multimodal Models)は多くのタスクや領域において優れた問題解決能力を示すが、視覚的文脈における数学的推論の能力は体系的に研究されていない。このギャップを埋めるために,さまざまな数学的タスクと視覚的タスクの課題を組み合わせるためのベンチマークであるmathvistaを提案する。数学を含む28の既存のマルチモーダルデータセットと新たに作成された3つのデータセット(IQTest、FunctionQA、PaperQA)から派生した6,141の例で構成されている。これらのタスクを補完するには、きめ細かい、深い視覚的理解と構成的推論が必要です。 MathVistaでは,12の著名な基礎モデルの包括的,定量的評価を行った。 gpt-4vモデル全体の精度は49.9%で、第2位であるbardを15.1%上回っている。分析の結果,gpt-4vの優位は,視覚知覚の強化と数学的推論が主因であることが判明した。しかし、gpt-4vは複雑な数値の理解や厳密な推論に苦しむことが多いため、まだ人間のパフォーマンスには10.4%不足している。この大きなギャップは、MathVistaが数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において果たす重要な役割を浮き彫りにする。さらに, 自己検証の新たな能力, 自己整合性の適用, GPT-4Vの対話型チャットボット機能について検討し, 今後の研究の可能性を明らかにする。プロジェクトはhttps://mathvista.github.io/で入手できる。

関連論文リスト

Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models [19.787224412654872]
In-deepth Assessment of Vision-Language Models (VLMs) のための動的視覚数学ベンチマークであるDynaMathを紹介する。 DynaMathには501の高品質でマルチトピックなシード質問が含まれており、それぞれがPythonプログラムとして表現されている。その結果,10変種すべてにおいて正解された種子質問の割合として定義される最悪のモデル精度は,平均値よりも有意に低いことがわかった。
論文参考訳（メタデータ） (2024-10-29T17:29:19Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。 Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文参考訳（メタデータ） (2024-06-25T05:43:21Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文参考訳（メタデータ） (2022-04-12T09:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。