論文の概要: GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning
- arxiv url: http://arxiv.org/abs/2312.12241v1
- Date: Tue, 19 Dec 2023 15:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:00:41.948489
- Title: GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning
- Title(参考訳): GeomVerse: 幾何学的推論のための大規模モデルの体系的評価
- Authors: Mehran Kazemi, Hamidreza Alvari, Ankit Anand, Jialin Wu, Xi Chen, Radu
Soricut
- Abstract要約: 幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
- 参考スコア(独自算出の注目度): 17.61621287003562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown impressive results for multi-hop
mathematical reasoning when the input question is only textual. Many
mathematical reasoning problems, however, contain both text and image. With the
ever-increasing adoption of vision language models (VLMs), understanding their
reasoning abilities for such problems is crucial. In this paper, we evaluate
the reasoning capabilities of VLMs along various axes through the lens of
geometry problems. We procedurally create a synthetic dataset of geometry
questions with controllable difficulty levels along multiple axes, thus
enabling a systematic evaluation. The empirical results obtained using our
benchmark for state-of-the-art VLMs indicate that these models are not as
capable in subjects like geometry (and, by generalization, other topics
requiring similar reasoning) as suggested by previous benchmarks. This is made
especially clear by the construction of our benchmark at various depth levels,
since solving higher-depth problems requires long chains of reasoning rather
than additional memorized knowledge. We release the dataset for further
research in this area.
- Abstract(参考訳): 入力質問がテキストのみである場合、大規模言語モデルはマルチホップ数学的推論において印象的な結果を示した。
しかし、多くの数学的推論問題はテキストと画像の両方を含んでいる。
視覚言語モデル(VLM)の採用が絶え間なく増加する中、これらの問題に対する推論能力を理解することが重要である。
本稿では,幾何問題レンズを用いて,様々な軸に沿ったVLMの推論能力を評価する。
複数の軸に沿って制御可能な難易度を有する幾何学的質問の合成データセットを手続き的に作成し,体系的な評価を可能にする。
最新のvlmのベンチマークを用いて得られた実験結果から,従来のベンチマークで示唆したように,これらのモデルは幾何(および一般化によって,他のトピックが類似する推論を必要とする)のような主題では有能ではないことが示唆された。
これは、より深い問題を解決するには、追加の記憶された知識ではなく、長い推論の連鎖が必要であるため、様々な深さレベルでのベンチマークの構築によって特に明確にされる。
この分野のさらなる研究のためのデータセットをリリースする。
関連論文リスト
- Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。