論文の概要: G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
- arxiv url: http://arxiv.org/abs/2312.11370v1
- Date: Mon, 18 Dec 2023 17:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:22:03.318968
- Title: G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
- Title(参考訳): G-LLaVA:多モード大言語モデルによる幾何学的問題の解法
- Authors: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei
Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
- Abstract要約: 大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
- 参考スコア(独自算出の注目度): 124.68242155098189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable proficiency in human-level
reasoning and generation capabilities, which encourages extensive research on
their application in mathematical problem solving. However, current work has
been largely focused on text-based mathematical problems, with limited
investigation in problems involving geometric information. Addressing this gap,
we aim to enable LLMs to solve geometric problems by understanding image input.
We first analyze the limitations of current Multimodal Large Language Models
(MLLMs) in this area: they struggle to accurately comprehending basic geometric
elements and their relationships. To overcome these challenges, we take
advantage of the unique characteristics of geometric problems (such as unique
geometric logical form, and geometric scalability) and the capacity of the
textual LLMs to build an enriched multimodal geometry dataset based on existing
data. The augmented dataset, Geo170K, contains more than 170K geometric
image-caption and question-answer pairs. Utilizing our constructed Geo170K
dataset, we develop G-LLaVA, which demonstrates exceptional performance in
solving geometric problems, significantly outperforming GPT-4-V on the
MathVista benchmark with only 7B parameters.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間レベルの推論と生成能力に顕著な能力を示しており、数学的問題解決への応用に関する広範な研究を奨励している。
しかし、現在の研究は主にテキストに基づく数学的問題に焦点を当てており、幾何学的情報を含む問題の研究は限られている。
このギャップに対処するため,LLMが画像入力を理解することで幾何学的問題を解決することを目指している。
我々はまず,この領域における現在のマルチモーダル大言語モデル(MLLM)の限界を解析し,基本的な幾何学的要素とそれらの関係を正確に理解するのに苦労する。
これらの課題を克服するために,我々は,幾何学的問題(一意な幾何学的論理形式や幾何学的拡張性など)のユニークな特徴と,既存のデータに基づいて拡張された多様幾何学データセットを構築するためのテキスト的llmの能力を利用する。
拡張データセットgeo170kには,170k以上の幾何学的イメージキャプチャと質問応答ペアが含まれている。
構築したGeo170Kデータセットを用いてG-LLaVAを開発し、7Bパラメータしか持たないMathVistaベンチマークでGPT-4-Vを著しく上回った。
関連論文リスト
- A Survey of Geometric Graph Neural Networks: Data Structures, Models and
Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。
幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on
Geometry Problem-Solving [42.87726507268092]
我々はGeoEvalベンチマーク、2000問題の主要サブセット、後方推論に焦点を当てた750問題サブセット、2000問題の拡張サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
このベンチマークは、数学問題の解法におけるLarge Language Models (LLMs) とMulti-Modal Models (MMs) の性能についてより深く研究することを促進する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは55.67%の精度で優れているが、6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - FGeo-TP: A Language Model-Enhanced Solver for Geometry Problems [1.137457877869062]
本稿では,FGeo-TP (Theorem Predictor)を導入し,この言語モデルを用いて定理列の予測を行い,幾何学的問題を解く。
本研究では,FormalGeo7kデータセット上での言語モデル強化FGeo-TPの問題解決率を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T09:44:28Z) - Adaptive Surface Normal Constraint for Geometric Estimation from
Monocular Images [59.00008891108098]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - GAPS: Geometry-Aware Problem Solver [7.9345421580482185]
幾何学的問題解決は、NLPコミュニティにおける深刻な課題である。
既存のアプローチは、しばしば数学の単語問題を解くために設計されたモデルに依存し、幾何学の数学問題の特異な特徴を無視する。
本研究では,GAPS(Geometry-Aware Problem Solver)モデルを提案する。
GAPSは、様々なタイプの幾何学数学問題に対する解プログラムを生成するように設計されている。
論文 参考訳(メタデータ) (2024-01-29T16:48:34Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。