論文の概要: MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts
- arxiv url: http://arxiv.org/abs/2310.02255v1
- Date: Tue, 3 Oct 2023 17:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 12:47:49.936072
- Title: MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts
- Title(参考訳): MathVista:ビジュアルコンテキストにおける基礎モデルの数学的推論の評価
- Authors: Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh
Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao
- Abstract要約: 大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。
MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。
MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
- 参考スコア(独自算出の注目度): 170.01089233942594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) and Large Multimodal Models (LMMs)
exhibit impressive skills in various domains, their ability for mathematical
reasoning within visual contexts has not been formally examined. Equipping LLMs
and LMMs with this capability is vital for general-purpose AI assistants and
showcases promising potential in education, data analysis, and scientific
discovery. To bridge this gap, we present MathVista, a benchmark designed to
amalgamate challenges from diverse mathematical and visual tasks. We first
taxonomize the key task types, reasoning skills, and visual contexts from the
literature to guide our selection from 28 existing math-focused and visual
question answering datasets. Then, we construct three new datasets, IQTest,
FunctionQA, and PaperQA, to accommodate for missing types of visual contexts.
The problems featured often require deep visual understanding beyond OCR or
image captioning, and compositional reasoning with rich domain-specific tools,
thus posing a notable challenge to existing models. We conduct a comprehensive
evaluation of 11 prominent open-source and proprietary foundation models (LLMs,
LLMs augmented with tools, and LMMs), and early experiments with GPT-4V. The
best-performing model, Multimodal Bard, achieves only 58% of human performance
(34.8% vs 60.3%), indicating ample room for further improvement. Given this
significant gap, MathVista fuels future research in the development of
general-purpose AI agents capable of tackling mathematically intensive and
visually rich real-world tasks. Preliminary tests show that MathVista also
presents challenges to GPT-4V, underscoring the benchmark's importance. The
project is available at https://mathvista.github.io/.
- Abstract(参考訳): 大規模言語モデル(llm)と大規模マルチモーダルモデル(lmm)は様々な領域において印象的なスキルを示すが、視覚的文脈における数学的推論能力は正式には検討されていない。
この能力でLLMとLMMを入手することは、汎用AIアシスタントにとって不可欠であり、教育、データ分析、科学的発見において有望な可能性を示す。
このギャップを埋めるために,さまざまな数学的および視覚的タスクの課題を回避すべく設計されたベンチマークであるmathvistaを提案する。
まず,本論文から重要タスクタイプ,推論スキル,視覚的コンテキストを分類し,既存の28の算数および視覚的質問応答データセットから選択する。
そして、欠落した視覚的コンテキストに対応するために、IQTest、FunctionQA、PaperQAという3つの新しいデータセットを構築します。
しばしば取り上げられる問題は、ocrや画像キャプションを超えた深い視覚的理解と、リッチなドメイン固有のツールによる構成的推論を必要とするため、既存のモデルにとって大きな課題となる。
我々は,11の著名なオープンソースおよびプロプライエタリ基盤モデル(LLM,ツール付きLLM,LMM)を総合的に評価し,GPT-4Vによる早期実験を行った。
最高のパフォーマンスモデルであるMultimodal Bardは、人間のパフォーマンスの58%しか達成していない(34.8%対60.3%)。
この大きなギャップを考えると、mathvistaは、数学的に集中的で視覚的にリッチな実世界のタスクに取り組むことができる汎用aiエージェントの開発における将来の研究を加速する。
予備的なテストでは、MathVistaはGPT-4Vにも課題を示し、ベンチマークの重要性を強調している。
プロジェクトはhttps://mathvista.github.io/で入手できる。
関連論文リスト
- Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。