論文の概要: Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving
- arxiv url: http://arxiv.org/abs/2508.09099v1
- Date: Tue, 12 Aug 2025 17:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.525969
- Title: Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving
- Title(参考訳): 幾何問題解法に連鎖した形式言語をブリッジする
- Authors: Tianyun Yang, Yunwen Li, Ziniu Li, Zhihang Lin, Ruoyu Sun, Tian Ding,
- Abstract要約: 我々はChain-of-Thought(CoT)とフォーマル言語を統合する新しいアプローチを提案する。
このモデルは、ソルバ実行可能コードの漸進的な排出を伴う自然言語推論をインターリーブする。
Qwen2.5-VL-7Bに基づいて構築された新しいモデルGF-Reasonerは、標準GPSベンチマークで最大15%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 9.550050299909184
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision language models exhibit notable limitations on Geometry Problem Solving (GPS) because of their unreliable diagram interpretation and pure natural-language reasoning. A recent line of work mitigates this by using symbolic solvers: the model directly generates a formal program that a geometry solver can execute. However, this direct program generation lacks intermediate reasoning, making the decision process opaque and prone to errors. In this work, we explore a new approach that integrates Chain-of-Thought (CoT) with formal language. The model interleaves natural language reasoning with incremental emission of solver-executable code, producing a hybrid reasoning trace in which critical derivations are expressed in formal language. To teach this behavior at scale, we combine (1) supervised fine-tuning on an 11K newly developed synthetic dataset with interleaved natural language reasoning and automatic formalization, and (2) solver-in-the-loop reinforcement learning that jointly optimizes both the CoT narrative and the resulting program through outcome-based rewards. Built on Qwen2.5-VL-7B, our new model, named GF-Reasoner, achieves up to 15% accuracy improvements on standard GPS benchmarks, surpassing both 7B-scale peers and the much larger model Qwen2.5-VL-72B. By exploiting high-order geometric knowledge and offloading symbolic computation to the solver, the generated reasoning traces are noticeably shorter and cleaner. Furthermore, we present a comprehensive analysis of method design choices (e.g., reasoning paradigms, data synthesis, training epochs, etc.), providing actionable insights for future research.
- Abstract(参考訳): 大きな視覚言語モデルは、信頼できない図形解釈と純粋な自然言語推論のため、幾何学的問題解決(GPS)に顕著な限界を示す。
モデルは、幾何学的解法が実行できる形式的なプログラムを直接生成する。
しかし、この直接的なプログラム生成は中間的推論に欠けており、決定プロセスは不透明であり、エラーを起こしやすい。
本研究では、Chain-of-Thought(CoT)とフォーマル言語を統合する新しいアプローチについて検討する。
このモデルは、ソルバ実行可能コードの漸進的な排出を伴う自然言語推論をインターリーブし、批判的導出が形式言語で表現されるハイブリッド推論トレースを生成する。
この行動を大規模に教えるために,(1)新たに開発された11K合成データセットの教師付き微調整,(2)CoTナラティブと結果プログラムを協調的に最適化する解法-ループ強化学習を,結果に基づく報奨を通じて組み合わせた。
Qwen2.5-VL-7Bをベースとした新しいモデルGF-Reasonerは、標準的なGPSベンチマークで最大15%の精度向上を実現し、7Bスケールのピアとはるかに大きなモデルであるQwen2.5-VL-72Bを上回りました。
高次幾何学的知識を活用し、シンボリック計算をソルバにオフロードすることにより、生成された推論トレースは著しく短く、よりクリーンになる。
さらに,手法設計の選択肢(推論パラダイム,データ合成,学習エポックスなど)を包括的に分析し,今後の研究に有効な知見を提供する。
関連論文リスト
- RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。
PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。
本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:40:01Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Neural-Symbolic Solver for Math Word Problems with Auxiliary Tasks [130.70449023574537]
我々のNS-rは、問題を読み取り、問題をエンコードする問題リーダーと、記号方程式を生成するプログラマと、答えを得るシンボリックエグゼキュータから構成される。
また, 目的表現の監督とともに, 4つの新たな補助的目的によって, 異なる記号的推論を強制的に行うように最適化した。
論文 参考訳(メタデータ) (2021-07-03T13:14:58Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。