論文の概要: VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2410.22995v1
- Date: Wed, 30 Oct 2024 13:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:32.158791
- Title: VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning
- Title(参考訳): VisAidMath: 視覚支援数学的推論のベンチマーク
- Authors: Jingkun Ma, Runzhe Zhan, Derek F. Wong, Yang Li, Di Sun, Hou Pong Chan, Lidia S. Chao,
- Abstract要約: 本稿では,視覚情報に関連する問題解決プロセスを評価するためのベンチマークであるVisAidMathを紹介する。
このベンチマークには、様々な数学分野の難解な問題、視覚支援の定式化、難易度などが含まれる。
視覚支援推論プロセスにおいて,10種類のLLMとLMMを用いて評価を行い,その欠点を強調した。
- 参考スコア(独自算出の注目度): 47.81337826098964
- License:
- Abstract: Although previous research on large language models (LLMs) and large multi-modal models (LMMs) has systematically explored mathematical problem-solving (MPS) within visual contexts, the analysis of how these models process visual information during problem-solving remains insufficient. To address this gap, we present VisAidMath, a benchmark for evaluating the MPS process related to visual information. We follow a rigorous data curation pipeline involving both automated processes and manual annotations to ensure data quality and reliability. Consequently, this benchmark includes 1,200 challenging problems from various mathematical branches, vision-aid formulations, and difficulty levels, collected from diverse sources such as textbooks, examination papers, and Olympiad problems. Based on the proposed benchmark, we conduct comprehensive evaluations on ten mainstream LLMs and LMMs, highlighting deficiencies in the visual-aided reasoning process. For example, GPT-4V only achieves 45.33% accuracy in the visual-aided reasoning task, even with a drop of 2 points when provided with golden visual aids. In-depth analysis reveals that the main cause of deficiencies lies in hallucination regarding the implicit visual reasoning process, shedding light on future research directions in the visual-aided MPS process.
- Abstract(参考訳): 大規模言語モデル (LLMs) と大規模マルチモーダルモデル (LMMs) に関するこれまでの研究は、視覚的文脈における数学的問題解決 (MPS) を体系的に検討してきたが、これらのモデルがどのように視覚情報を処理するかの分析はいまだ不十分である。
このギャップに対処するため、視覚情報に関連するMPSプロセスを評価するベンチマークであるVisAidMathを提示する。
私たちは、データ品質と信頼性を保証するために、自動化プロセスと手動アノテーションの両方を含む厳格なデータキュレーションパイプラインに従います。
その結果、このベンチマークには、教科書、試験論文、オリンピアード問題などの様々な情報源から収集された、様々な数学分野、視覚支援の定式化、難易度による1200の課題が含まれている。
提案したベンチマークに基づいて,10種類のLLMとLMMの総合評価を行い,視覚支援推論プロセスにおける欠陥を明らかにする。
例えば、GPT-4Vは視覚支援推論タスクで45.33%の精度しか達成していないが、黄金の視覚補助具が提供されると2ポイントの低下がある。
深い分析の結果、視覚障害者の主な原因は暗黙の視覚的推論プロセスに関する幻覚であり、視覚支援MPSプロセスにおける将来の研究方向性に光を当てることが判明した。
関連論文リスト
- Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。
本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。
GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文 参考訳(メタデータ) (2024-06-16T08:06:05Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - How can we learn (more) from challenges? A statistical approach to
driving future algorithm development [1.0690055408831725]
本稿では,課題から学習し,腹腔鏡ビデオにおけるインスタンスセグメンテーションの具体的タスクをインスタンス化する統計フレームワークを提案する。
2,728枚の画像から51,542個のメタデータを抽出し,ロバスト・メディカル・インスツルメンツ・チャレンジ(ROBUST-MIS)の結果に適用した。
提案手法の開発は,従来の手法が失敗する傾向にあった画像の処理において,最先端の総合的性能と具体的な強みを有する深層学習モデルを得た。
論文 参考訳(メタデータ) (2021-06-17T08:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。