Fugu-MT 論文翻訳(概要): Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver

論文の概要: Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver

arxiv url: http://arxiv.org/abs/2409.04214v2
Date: Mon, 9 Sep 2024 02:46:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 13:16:17.350929
Title: Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver
Title（参考訳）: ダイアグラム形式化による多モード幾何問題解法
Authors: Zeren Zhang, Jo-Ku Cheng, Jingyang Deng, Lu Tian, Jinwen Ma, Ziran Qin, Xiaokai Zhang, Na Zhu, Tuo Leng,
Abstract要約: 視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
参考スコア（独自算出の注目度）: 11.69164802295844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mathematical reasoning remains an ongoing challenge for AI models, especially for geometry problems that require both linguistic and visual signals. As the vision encoders of most MLLMs are trained on natural scenes, they often struggle to understand geometric diagrams, performing no better in geometry problem solving than LLMs that only process text. This limitation is amplified by the lack of effective methods for representing geometric relationships. To address these issues, we introduce the Diagram Formalization Enhanced Geometry Problem Solver (DFE-GPS), a new framework that integrates visual features, geometric formal language, and natural language representations. We propose a novel synthetic data approach and create a large-scale geometric dataset, SynthGeo228K, annotated with both formal and natural language captions, designed to enhance the vision encoder for a better understanding of geometric structures. Our framework improves MLLMs' ability to process geometric diagrams and extends their application to open-ended tasks on the formalgeo7k dataset.
Abstract（参考訳）: 数学的推論は、AIモデル、特に言語信号と視覚信号の両方を必要とする幾何学的問題において、現在も進行中の課題である。ほとんどのMLLMの視覚エンコーダは自然の場面で訓練されているため、幾何学図の理解に苦慮し、テキストのみを処理するLLMよりも幾何学的問題解決に優れる。この制限は、幾何学的関係を表現する効果的な方法の欠如によって増幅される。これらの問題に対処するために、視覚的特徴、幾何学的形式言語、自然言語表現を統合した新しいフレームワークであるダイアグラム形式化拡張幾何問題解法(DFE-GPS)を導入する。我々は新しい合成データアプローチを提案し、幾何学的構造をよりよく理解するために視覚エンコーダを強化するために、形式的および自然言語のキャプションを付加した大規模な幾何学的データセット、SynthGeo228Kを作成する。我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。

関連論文リスト

Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。 GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文参考訳（メタデータ） (2025-04-17T09:13:46Z)
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。 MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文参考訳（メタデータ） (2025-03-26T17:30:41Z)
MagicGeo: Training-Free Text-Guided Geometric Diagram Generation [39.30134393001854]
本稿では,テキスト記述から幾何学図を生成するためのトレーニングフリーフレームワークMagicGeoを提案する。 MagicGeoは、ダイアグラム生成プロセスを座標最適化問題として定式化し、形式言語ソルバによる幾何的正しさを確保し、座標認識生成を使用する。 220の幾何学的図式記述のベンチマークデータセットであるMagicGeoBenchを導入し、MagicGeoが定性評価と定量的評価の両方で現在の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-02-19T16:20:14Z)
Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文参考訳（メタデータ） (2025-01-23T15:52:34Z)
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文参考訳（メタデータ） (2024-12-16T15:20:03Z)
Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learning [4.4615747404424395]
幾何学数学の問題は、大言語モデル(LLM)に重大な課題をもたらす地理マス(GeoMath)と呼ばれる中国の高校教育Webサイトから,幾何学的データを抽出して,幾何学的質問応答データセットを収集する。メタトレーニングと呼ばれる学習段階において、教師付き微調整(SFT)による検索強化を取り入れたGeo-LLaVAと呼ばれるLarge Multi-modal Model(LMM)フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T07:34:09Z)
GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文参考訳（メタデータ） (2024-10-17T12:56:52Z)
Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文参考訳（メタデータ） (2024-07-10T02:45:22Z)
GOLD: Geometry Problem Solver with Natural Language Description [7.9345421580482185]
本稿では,自然言語記述モデルを用いた幾何問題 sOlver を提案する。 GOLDは図内のシンボルと幾何学的プリミティブを別々に処理することで、幾何学的関係の抽出を強化する。抽出した関係を自然言語記述に変換し、大きな言語モデルを効率的に利用して幾何学数学の問題を解く。
論文参考訳（メタデータ） (2024-05-01T13:00:51Z)
A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文参考訳（メタデータ） (2024-03-01T12:13:04Z)
Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文参考訳（メタデータ） (2024-02-08T17:57:59Z)
GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文参考訳（メタデータ） (2023-12-19T15:25:39Z)
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。 G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文参考訳（メタデータ） (2023-12-18T17:36:20Z)
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文参考訳（メタデータ） (2021-05-30T12:34:17Z)
Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文参考訳（メタデータ） (2021-05-10T07:46:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。