Fugu-MT 論文翻訳(概要): G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

論文の概要: G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

arxiv url: http://arxiv.org/abs/2312.11370v1
Date: Mon, 18 Dec 2023 17:36:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 19:22:03.318968
Title: G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model
Title（参考訳）: G-LLaVA:多モード大言語モデルによる幾何学的問題の解法
Authors: Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong
Abstract要約: 大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。 G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
参考スコア（独自算出の注目度）: 124.68242155098189
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable proficiency in human-level reasoning and generation capabilities, which encourages extensive research on their application in mathematical problem solving. However, current work has been largely focused on text-based mathematical problems, with limited investigation in problems involving geometric information. Addressing this gap, we aim to enable LLMs to solve geometric problems by understanding image input. We first analyze the limitations of current Multimodal Large Language Models (MLLMs) in this area: they struggle to accurately comprehending basic geometric elements and their relationships. To overcome these challenges, we take advantage of the unique characteristics of geometric problems (such as unique geometric logical form, and geometric scalability) and the capacity of the textual LLMs to build an enriched multimodal geometry dataset based on existing data. The augmented dataset, Geo170K, contains more than 170K geometric image-caption and question-answer pairs. Utilizing our constructed Geo170K dataset, we develop G-LLaVA, which demonstrates exceptional performance in solving geometric problems, significantly outperforming GPT-4-V on the MathVista benchmark with only 7B parameters.
Abstract（参考訳）: 大規模言語モデル(llm)は、人間レベルの推論と生成能力に顕著な能力を示しており、数学的問題解決への応用に関する広範な研究を奨励している。しかし、現在の研究は主にテキストに基づく数学的問題に焦点を当てており、幾何学的情報を含む問題の研究は限られている。このギャップに対処するため,LLMが画像入力を理解することで幾何学的問題を解決することを目指している。我々はまず,この領域における現在のマルチモーダル大言語モデル(MLLM)の限界を解析し,基本的な幾何学的要素とそれらの関係を正確に理解するのに苦労する。これらの課題を克服するために,我々は,幾何学的問題(一意な幾何学的論理形式や幾何学的拡張性など)のユニークな特徴と,既存のデータに基づいて拡張された多様幾何学データセットを構築するためのテキスト的llmの能力を利用する。拡張データセットgeo170kには,170k以上の幾何学的イメージキャプチャと質問応答ペアが含まれている。構築したGeo170Kデータセットを用いてG-LLaVAを開発し、7Bパラメータしか持たないMathVistaベンチマークでGPT-4-Vを著しく上回った。

関連論文リスト

GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language [11.134307550723037]
MLLM(Multi-modal Large Language Models)は、学術と産業の両方において大きな注目を集めている。これらのモデルは、高品質な幾何学的データの不足により、数学的な幾何学的推論の課題に直面している。幾何学的データを合成する新しい手法であるGeoFMを提案する。
論文参考訳（メタデータ） (2025-10-31T12:56:32Z)
Visual Diffusion Models are Geometric Solvers [54.31602846693932]
画像拡散モデルは,画素空間で作業することで,効果的な幾何学的解法として機能することを示す。最初にこれを、幾何学の長年の問題である印字正方形問題(Inscription Square Problem)で実証する。我々はこのアプローチを、Steiner Tree Problem と Simple Polygon Problem の2つのよく知られた厳密な幾何学的問題に拡張する。
論文参考訳（メタデータ） (2025-10-24T17:57:31Z)
GeoThought: A Dataset for Enhancing Mathematical Geometry Reasoning in Vision-Language Models [3.66076510862044]
6,243個のサンプルを持つGeo-Thought-6Kと10,834個のサンプルを含むGeo-Thought-Augmented-10Kの2つのサブセットからなる包括的幾何学的推論コーパスを開発した。このデータセットを用いて,問題解決時に詳細な思考プロセスを生成する数学的推論マルチモーダルモデルGeoThought-MLLMを開発した。我々のモデルは、幾何学的タスクにおける既存のベンチマークよりも優れており、私たちのChain-of-Thoughtデータセットによるトレーニングが、ドメイン内とドメイン外の両方で幾何学的推論能力を改善することを実証しています。
論文参考訳（メタデータ） (2025-10-23T16:43:54Z)
A Survey of Deep Learning for Geometry Problem Solving [72.22844763179786]
本稿では,幾何学的問題解決におけるディープラーニングの応用について調査する。 i)幾何学的問題解決における関連する課題の包括的概要、(ii)関連するディープラーニング手法の徹底的なレビュー、(iii)評価指標と手法の詳細な分析を含む。我々の目標は、この分野のさらなる発展を促進するために、幾何学的問題解決のためのディープラーニングの包括的で実践的な参照を提供することである。
論文参考訳（メタデータ） (2025-07-16T06:03:08Z)
Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。 GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文参考訳（メタデータ） (2025-04-17T09:13:46Z)
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。 MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文参考訳（メタデータ） (2025-03-26T17:30:41Z)
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文参考訳（メタデータ） (2024-12-16T15:20:03Z)
Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learning [4.4615747404424395]
幾何学数学の問題は、大言語モデル(LLM)に重大な課題をもたらす地理マス(GeoMath)と呼ばれる中国の高校教育Webサイトから,幾何学的データを抽出して,幾何学的質問応答データセットを収集する。メタトレーニングと呼ばれる学習段階において、教師付き微調整(SFT)による検索強化を取り入れたGeo-LLaVAと呼ばれるLarge Multi-modal Model(LMM)フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T07:34:09Z)
Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring [34.37450586634531]
本稿では,LVLM(Large Vision Language Models)の問題解決能力を高めるため,GPSM4Kを提案する。 GPSM4Kは7～12年生の数学教科書から手作業で抽出した2157個の質問応答対を含んでいる。このデータセットは、LVLMの幾何学的推論能力を評価するための優れたベンチマークとなる。
論文参考訳（メタデータ） (2024-12-01T15:19:23Z)
R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models [86.06825304372613]
本稿では,R-CoT(Reverse Chain-of-Thought)幾何問題生成パイプラインを提案する。まず、GeoChainを導入し、高忠実度幾何画像とそれに対応する記述を生成する。次に、記述に基づいてステップバイステップの推論を行うReverse A&Q手法を設計し、推論結果から逆の質問を生成する。
論文参考訳（メタデータ） (2024-10-23T13:58:39Z)
GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文参考訳（メタデータ） (2024-10-17T12:56:52Z)
Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文参考訳（メタデータ） (2024-09-06T12:11:06Z)
Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文参考訳（メタデータ） (2024-07-10T02:45:22Z)
GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文参考訳（メタデータ） (2024-06-17T13:04:27Z)
Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文参考訳（メタデータ） (2024-02-08T17:57:59Z)
GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文参考訳（メタデータ） (2023-12-19T15:25:39Z)
UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文参考訳（メタデータ） (2022-12-06T04:37:51Z)
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文参考訳（メタデータ） (2021-05-30T12:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。