論文の概要: Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.00890v1
- Date: Wed, 01 Apr 2026 13:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.00839
- Title: Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models
- Title(参考訳): シンボリック・ソルビングを超えて:大規模言語モデルにおける幾何学的推論のための多階層投票
- Authors: Md. Abu Bakor Siddique, Shahrin Hossain, Sadman Ahmed Siam, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan,
- Abstract要約: 幾何学的問題解決(GPS)は、大きな言語モデルにおける数学的推論の強化の中心にある。
本稿では,数値検証のためにPythonコード実行を付加した複数並列推論ロールアウトを生成するMARS-GPSを提案する。
8つの並列ロールアウトを持つMARS-GPSはGeometry3Kの88.8%を達成している。
- 参考スコア(独自算出の注目度): 2.464003792743989
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Geometric Problem Solving (GPS) remains at the heart of enhancing mathematical reasoning in large language models because it requires the combination of diagrammatic understanding, symbolic manipulation and logical inference. In existing literature, researchers have chiefly focused on synchronising the diagram descriptions with text literals and solving the problem. In this vein, they have either taken a neural, symbolic or neuro-symbolic approach. But this solves only the first two of the requirements, namely diagrammatic understanding and symbolic manipulation, while leaving logical inference underdeveloped. The logical inference is often limited to one chain-of-thought (CoT). To address this weakness in hitherto existing models, this paper proposes MARS-GPS, that generates multiple parallel reasoning rollouts augmented with Python code execution for numerical verification, ranks them using token-level entropy as a confidence signal, and aggregates answers through a multi-stage voting and self-verification pipeline. Empirical results show that MARS-GPS with 8 parallel rollouts achieves 88.8% on Geometry3K, a nearly +11% improvement over the prior state-of-the-art, with accuracy scaling consistently as the number of rollouts increases from 1 to 16 (+6.0% on ablation subset). We provide our code and data in an anonymous repository: https://anonymous.4open.science/r/MARS-GPS-DE55.
- Abstract(参考訳): 幾何学的問題解決(GPS)は、図式理解、記号操作、論理推論の組み合わせを必要とするため、大きな言語モデルにおける数学的推論の強化の中心に留まっている。
既存の文献では、主にダイアグラム記述をテキストリテラルと同期させ、問題を解くことに重点を置いている。
この静脈では、それらは神経的、象徴的、あるいは神経象徴的なアプローチを取っている。
しかし、これは最初の2つの要件、すなわち図式的理解と記号的操作を解決し、論理的推論は未発達のままである。
論理的推論は、しばしば1つのチェーン・オブ・シークレット(CoT)に制限される。
そこで本稿では,Python コード実行に強化された並列推論ロールアウトを生成する MARS-GPS を提案し,トークンレベルのエントロピーを信頼信号として扱い,多段階投票と自己検証のパイプラインを通じて回答を集約する。
実証的な結果は、8つの並列ロールアウトを持つMARS-GPSがGeometry3Kの88.8%を達成することを示している。
私たちは、匿名リポジトリにコードとデータを提供します。
関連論文リスト
- Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis [0.0]
本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-08-18T21:58:18Z) - Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving [9.550050299909184]
我々はChain-of-Thought(CoT)とフォーマル言語を統合する新しいアプローチを提案する。
このモデルは、ソルバ実行可能コードの漸進的な排出を伴う自然言語推論をインターリーブする。
Qwen2.5-VL-7Bに基づいて構築された新しいモデルGF-Reasonerは、標準GPSベンチマークで最大15%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-08-12T17:26:23Z) - AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning [14.44742282076576]
AutoGPSは、簡潔で信頼性があり、人間の解釈可能な推論プロセスで幾何学的問題を解決する、神経象徴的な協調フレームワークである。
MPFは、ニューラルネットワークのクロスモーダル理解を利用して、幾何学的問題を構造化された形式言語表現に変換する。
DSRは形式化を入力とし、ハイパーグラフ拡張タスクとして幾何学的問題解決を定式化する。
論文 参考訳(メタデータ) (2025-05-29T12:01:20Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - A Symbolic Character-Aware Model for Solving Geometry Problems [18.68829580108664]
テキスト記述では、"$triangle$ABC" のような記号文字が対応するダイアグラムを接続するブリッジとして機能することが多い。
文字認識モデルを構築し,文字理解と図解理解の両面において,これらの文字の役割を解明する。
論文 参考訳(メタデータ) (2023-08-05T08:56:55Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。