論文の概要: GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.13510v1
- Date: Thu, 17 Oct 2024 12:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:48.800927
- Title: GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models
- Title(参考訳): GeoCoder:視覚言語モデルによるモジュールコード生成による幾何学的問題の解決
- Authors: Aditya Sharma, Aman Dalmia, Mehran Kazemi, Amal Zouaq, Christopher J. Pal,
- Abstract要約: 視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
- 参考スコア(独自算出の注目度): 10.443672399225983
- License:
- Abstract: Geometry problem-solving demands advanced reasoning abilities to process multimodal inputs and employ mathematical knowledge effectively. Vision-language models (VLMs) have made significant progress in various multimodal tasks. Yet, they still struggle with geometry problems and are significantly limited by their inability to perform mathematical operations not seen during pre-training, such as calculating the cosine of an arbitrary angle, and by difficulties in correctly applying relevant geometry formulas. To overcome these challenges, we present GeoCoder, which leverages modular code-finetuning to generate and execute code using a predefined geometry function library. By executing the code, we achieve accurate and deterministic calculations, contrasting the stochastic nature of autoregressive token prediction, while the function library minimizes errors in formula usage. We also propose a multimodal retrieval-augmented variant of GeoCoder, named RAG-GeoCoder, which incorporates a non-parametric memory module for retrieving functions from the geometry library, thereby reducing reliance on parametric memory. Our modular code-finetuning approach enhances the geometric reasoning capabilities of VLMs, yielding an average improvement of over 16% across various question complexities on the GeomVerse dataset compared to other finetuning methods.
- Abstract(参考訳): 幾何学的問題解決は、多モード入力を処理し、数学的知識を効果的に活用する高度な推論能力を要求する。
視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、それでも幾何問題に悩まされており、任意の角度の余弦を計算したり、関連する幾何公式を正しく適用することの困難さなど、事前学習中に見られない数学的操作を行うことができないため、著しく制限されている。
これらの課題を克服するために,モジュール型コードファインタニングを利用して事前に定義された幾何関数ライブラリを使用してコードを生成し,実行するGeoCoderを提案する。
コードを実行することで、自動回帰トークン予測の確率的性質と対比して、正確で決定論的な計算を実現し、関数ライブラリは公式使用時のエラーを最小限に抑える。
また,GeoCoderのマルチモーダル検索拡張版であるRAG-GeoCoderを提案する。
我々のモジュラーコードファインタニングアプローチは、VLMの幾何学的推論能力を向上し、GeomVerseデータセットの様々な問題複雑度に対して平均16%以上の改善をもたらす。
関連論文リスト
- R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models [86.06825304372613]
本稿では,R-CoT(Reverse Chain-of-Thought)幾何問題生成パイプラインを提案する。
まず、GeoChainを導入し、高忠実度幾何画像とそれに対応する記述を生成する。
次に、記述に基づいてステップバイステップの推論を行うReverse A&Q手法を設計し、推論結果から逆の質問を生成する。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - Geometry-Informed Neural Networks [15.27249535281444]
幾何インフォームドニューラルネットワーク(GINN)を導入する。
GINNは、データなしで形状生成ニューラルネットワークをトレーニングするためのフレームワークである。
GINNをいくつかの検証問題と現実的な3Dエンジニアリング設計問題に適用する。
論文 参考訳(メタデータ) (2024-02-21T18:50:12Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。