論文の概要: Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring
- arxiv url: http://arxiv.org/abs/2412.00846v1
- Date: Sun, 01 Dec 2024 15:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:33.207327
- Title: Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring
- Title(参考訳): 幾何問題解決, 推論, マルチステップスコーリングにおけるマルチモーダルLLMの能力向上
- Authors: Avinash Anand, Raj Jaiswal, Abhishek Dharmadhikari, Atharva Marathe, Harsh Parimal Popat, Harshil Mital, Kritarth Prasad, Rajiv Ratn Shah, Roger Zimmermann,
- Abstract要約: 本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。
GPSM4Kは7~12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。
このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
- 参考スコア(独自算出の注目度): 34.37450586634531
- License:
- Abstract: This paper presents GPSM4K, a comprehensive geometry multimodal dataset tailored to augment the problem-solving capabilities of Large Vision Language Models (LVLMs). GPSM4K encompasses 2157 multimodal question-answer pairs manually extracted from mathematics textbooks spanning grades 7-12 and is further augmented to 5340 problems, consisting of both numerical and theorem-proving questions. In contrast to PGPS9k, Geometry3K, and Geo170K which feature only objective-type questions, GPSM4K offers detailed step-by-step solutions in a consistent format, facilitating a comprehensive evaluation of problem-solving approaches. This dataset serves as an excellent benchmark for assessing the geometric reasoning capabilities of LVLMs. Evaluation of our test set shows that there is scope for improvement needed in open-source language models in geometry problem-solving. Finetuning on our training set increases the geometry problem-solving capabilities of models. Further, We also evaluate the effectiveness of techniques such as image captioning and Retrieval Augmentation generation (RAG) on model performance. We leveraged LLM to automate the task of final answer evaluation by providing ground truth and predicted solutions. This research will help to assess and improve the geometric reasoning capabilities of LVLMs.
- Abstract(参考訳): 本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。
GPSM4Kは、7-12の数学教科書から手作業で抽出した2157の多モード質問対を包含しており、さらに数値と定理を証明した質問からなる5340の問題に拡張されている。
PGPS9k、Geometry3K、Geo170Kは客観的な質問のみを特徴としているが、GPSM4Kは、一貫したフォーマットで詳細なステップバイステップのソリューションを提供し、問題解決アプローチの包括的な評価を容易にする。
このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
テストセットの評価は,幾何学的問題解決において,オープンソースの言語モデルに必要な改善範囲があることを示唆している。
トレーニングセットの微調整により、モデルの幾何学的問題解決能力が向上する。
さらに,画像キャプションや検索拡張生成(RAG)などの手法がモデル性能に与える影響についても検討した。
我々は LLM を利用して, 基礎的真理と予測解を提供することで, 最終回答評価のタスクを自動化する。
この研究は、LVLMの幾何学的推論能力の評価と改善に役立ちます。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - GAPS: Geometry-Aware Problem Solver [7.9345421580482185]
幾何学的問題解決は、NLPコミュニティにおける深刻な課題である。
既存のアプローチは、しばしば数学の単語問題を解くために設計されたモデルに依存し、幾何学の数学問題の特異な特徴を無視する。
本研究では,GAPS(Geometry-Aware Problem Solver)モデルを提案する。
GAPSは、様々なタイプの幾何学数学問題に対する解プログラムを生成するように設計されている。
論文 参考訳(メタデータ) (2024-01-29T16:48:34Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。