論文の概要: GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on
Geometry Problem-Solving
- arxiv url: http://arxiv.org/abs/2402.10104v1
- Date: Thu, 15 Feb 2024 16:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:50:24.891292
- Title: GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on
Geometry Problem-Solving
- Title(参考訳): geoeval:幾何問題解決におけるllmおよびマルチモーダルモデルの評価ベンチマーク
- Authors: Jiaxin Zhang, Zhongzhi Li, Mingliang Zhang, Fei Yin, Chenglin Liu,
Yashar Moshfeghi
- Abstract要約: 我々はGeoEvalベンチマーク、2000問題の主要サブセット、後方推論に焦点を当てた750問題サブセット、2000問題の拡張サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
このベンチマークは、数学問題の解法におけるLarge Language Models (LLMs) とMulti-Modal Models (MMs) の性能についてより深く研究することを促進する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは55.67%の精度で優れているが、6.00%の精度しか達成していないことが分かる。
- 参考スコア(独自算出の注目度): 42.87726507268092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and Multi-Modal Models
(MMs) have demonstrated their remarkable capabilities in problem-solving. Yet,
their proficiency in tackling geometry math problems, which necessitates an
integrated understanding of both textual and visual information, has not been
thoroughly evaluated. To address this gap, we introduce the GeoEval benchmark,
a comprehensive collection that includes a main subset of 2000 problems, a 750
problem subset focusing on backward reasoning, an augmented subset of 2000
problems, and a hard subset of 300 problems. This benchmark facilitates a
deeper investigation into the performance of LLMs and MMs on solving geometry
math problems. Our evaluation of ten LLMs and MMs across these varied subsets
reveals that the WizardMath model excels, achieving a 55.67\% accuracy rate on
the main subset but only a 6.00\% accuracy on the challenging subset. This
highlights the critical need for testing models against datasets on which they
have not been pre-trained. Additionally, our findings indicate that GPT-series
models perform more effectively on problems they have rephrased, suggesting a
promising method for enhancing model capabilities.
- Abstract(参考訳): 近年のLarge Language Models (LLM) とMulti-Modal Models (MM) の進歩は,問題解決におけるその顕著な能力を示している。
しかし,テキスト情報と視覚情報の両方を総合的に理解する必要がある幾何問題に対処する能力は十分に評価されていない。
このギャップに対処するために、geoevalベンチマーク、2000問題の主要サブセット、後方推論にフォーカスした750問題サブセット、2000問題の拡張サブセット、300問題のハードサブセットを含む包括的なコレクションを紹介します。
このベンチマークは、幾何学数学問題の解法における LLM と MM の性能について、より深く研究することを促進する。
これらのサブセット間での10個のLLMとMMの評価により、WizardMathモデルは、主サブセットで55.67\%の精度を達成できるが、挑戦的なサブセットでは6.00\%の精度しか達成できないことが分かる。
これは、事前トレーニングされていないデータセットに対してモデルをテストするための重要な必要性を強調している。
さらに, GPTシリーズモデルは, 表現した問題に対して, より効果的に機能することが示唆された。
関連論文リスト
- Advancing Geometric Problem Solving: A Comprehensive Benchmark for Multimodal Model Evaluation [7.511463462131743]
本稿では,先進的な大規模言語とマルチモーダルモデルの性能を厳格に評価する新しいベンチマークであるMM-MATHデータセットを提案する。
このデータセットは、5,929個の厳密な幾何学的問題からなり、それぞれが対応する画像と組み合わせられ、9等数学の典型的な複雑性と要件を反映する。
論文 参考訳(メタデータ) (2024-04-07T22:16:50Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MathGenie: Generating Synthetic Data with Question Back-translation for
Enhancing Mathematical Reasoning of LLMs [39.769464414087935]
MathGenieは、小規模の問題解決データセットから多様で信頼性の高い数学問題を生成する新しい方法である。
7Bから70Bまでの各種事前学習モデルについて, 提案手法の有効性を検証するために, 新たなキュレートデータを用いて訓練を行った。
MathGenieLM-InternLM2はGSM8Kで87.7%、MATHで55.7%の精度を達成し、オープンソース言語モデルで最高のスコアを確保している。
論文 参考訳(メタデータ) (2024-02-26T07:17:25Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs'
Mathematical Reasoning Capabilities [29.06174003306662]
概念とHint-Annotated Math Problems (CHAMP) は、高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。