論文の概要: Concise Geometric Description as a Bridge: Unleashing the Potential of LLM for Plane Geometry Problem Solving
- arxiv url: http://arxiv.org/abs/2601.21164v2
- Date: Wed, 04 Feb 2026 07:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.525238
- Title: Concise Geometric Description as a Bridge: Unleashing the Potential of LLM for Plane Geometry Problem Solving
- Title(参考訳): 橋梁としての精密幾何記述:平面幾何問題の解法におけるLLMの可能性
- Authors: Jingyun Wang, Dian Li, Xiaohan Wang, Gang Liu, Jiahong Yan, Guoliang Kang,
- Abstract要約: PlaneThought Problem Solving (PGPS) は幾何学図と問題テキスト記述に基づく平面幾何学的問題を解決することを目的としている。
大規模言語モデル(LLM)は強力な推論能力を有しており、PGPSへの直接的な応用は視覚図の処理能力の欠如によって妨げられている。
視覚図の幾何学的記述を生成するためにMLLMインタープリタを訓練し、既製のLCMを用いて推論を行う。
- 参考スコア(独自算出の注目度): 50.05273675575345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Plane Geometry Problem Solving (PGPS) is a multimodal reasoning task that aims to solve a plane geometric problem based on a geometric diagram and problem textual descriptions. Although Large Language Models (LLMs) possess strong reasoning skills, their direct application to PGPS is hindered by their inability to process visual diagrams. Existing works typically fine-tune Multimodal LLMs (MLLMs) end-to-end on large-scale PGPS data to enhance visual understanding and reasoning simultaneously. However, such joint optimization may compromise base LLMs' inherent reasoning capability. In this work, we observe that LLM itself is potentially a powerful PGPS solver when appropriately formulating visual information as textual descriptions. We propose to train a MLLM Interpreter to generate geometric descriptions for the visual diagram, and an off-the-shelf LLM is utilized to perform reasoning. Specifically, we choose Conditional Declaration Language (CDL) as the geometric description as its conciseness eases the MLLM Interpreter training. The MLLM Interpreter is fine-tuned via CoT (Chain-of-Thought)-augmented SFT followed by GRPO to generate CDL. Instead of using a conventional solution-based reward that compares the reasoning result with the ground-truth answer, we design CDL matching rewards to facilitate more effective GRPO training, which provides more direct and denser guidance for CDL generation. To support training, we construct a new dataset, Formalgeo7k-Rec-CoT, by manually reviewing Formalgeo7k v2 and incorporating CoT annotations. Extensive experiments on Formalgeo7k-Rec-CoT, Unigeo, and MathVista show our method (finetuned on only 5.5k data) performs favorably against leading open-source and closed-source MLLMs.
- Abstract(参考訳): 平面幾何学的問題解決(PGPS)は,幾何学図と問題テキスト記述に基づく平面幾何学的問題を解くことを目的とした多モーダル推論タスクである。
LLM(Large Language Models)は強力な推論技術を持っているが、PGPSへの直接的な応用は視覚図の処理能力の欠如によって妨げられている。
既存の作業は、視覚的理解と推論を同時に強化するために、大規模PGPSデータに対して、末尾の細いマルチモーダルLLM(MLLM)が使用されるのが一般的である。
しかし、このような共同最適化はLLM固有の推論能力を損なう可能性がある。
本研究では,LLM自体が視覚情報をテキスト記述として適切に定式化する際に,潜在的に強力なPGPSソルバであることが観察された。
本稿では,視覚図の幾何学的記述を生成するためにMLLMインタープリタをトレーニングすることを提案する。
具体的には,条件宣言言語 (CDL) を幾何学的記述として選択する。
MLLMインタープリタはCoT(Chain-of-Thought)拡張SFTで微調整され、GRPOでCDLを生成する。
提案手法では, 従来の解法に基づく報奨と, より効果的なGRPOトレーニングを容易にするため, より直接的かつ高密度なCDL生成ガイダンスを提供するために, CDLマッチング報酬を設計する。
トレーニングを支援するために,Formalgeo7k v2を手動でレビューし,CoTアノテーションを組み込むことで,新しいデータセットであるFormalgeo7k-Rec-CoTを構築した。
Formalgeo7k-Rec-CoT、Unigeo、MathVistaの大規模な実験では、主要なオープンソースおよびクローズドソースMLLMに対して、我々の手法(5.5kのデータのみに焦点を合わせている)が好適に動作することを示した。
関連論文リスト
- Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。
知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。
我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文 参考訳(メタデータ) (2025-04-04T03:03:47Z) - Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents [69.58565132975504]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示した。
LLMをベースとしたエージェントが競合するマルチエージェント取引を行う仮想ゼロサム株式市場であるエージェントトレーディングアリーナを提示する。
論文 参考訳(メタデータ) (2025-02-25T08:41:01Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation [15.77263269398368]
大規模言語モデル(LLM)は、現在のAIのブレークスルーを促進する。
我々は幾何学のレンズを通してLLMの内部機構に光を当てた。
我々は,任意の(事前学習された)LLMから抽出できる解釈可能な幾何学的特徴を導出する。
論文 参考訳(メタデータ) (2023-12-04T06:01:32Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。