論文の概要: SymCode: A Neurosymbolic Approach to Mathematical Reasoning via Verifiable Code Generation
- arxiv url: http://arxiv.org/abs/2510.25975v1
- Date: Wed, 29 Oct 2025 21:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.577215
- Title: SymCode: A Neurosymbolic Approach to Mathematical Reasoning via Verifiable Code Generation
- Title(参考訳): SymCode: 検証可能なコード生成による数学的推論に対するニューロシンボリックアプローチ
- Authors: Sina Bagheri Nezhad, Yao Li, Ameeta Agrawal,
- Abstract要約: 検証可能なコード生成のタスクとして数学的問題解決を再構築する,ニューロシンボリックなフレームワークであるSymCodeを紹介する。
我々は、MATH-500やOlympiadBenchなど、挑戦的なベンチマークでSymCodeを評価し、大幅な精度向上を示した。
- 参考スコア(独自算出の注目度): 5.88623604115872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often struggle with complex mathematical reasoning, where prose-based generation leads to unverified and arithmetically unsound solutions. Current prompting strategies like Chain of Thought still operate within this unreliable medium, lacking a mechanism for deterministic verification. To address these limitations, we introduce SymCode, a neurosymbolic framework that reframes mathematical problem-solving as a task of verifiable code generation using the SymPy library. We evaluate SymCode on challenging benchmarks, including MATH-500 and OlympiadBench, demonstrating significant accuracy improvements of up to 13.6 percentage points over baselines. Our analysis shows that SymCode is not only more token-efficient but also fundamentally shifts model failures from opaque logical fallacies towards transparent, programmatic errors. By grounding LLM reasoning in a deterministic symbolic engine, SymCode represents a key step towards more accurate and trustworthy AI in formal domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な数学的推論に苦しむことが多く、散文ベースの生成は未検証で算術的に不健全な解をもたらす。
現在、Chain of Thoughtのようなプロンプト戦略は、決定論的検証のメカニズムが欠如しているため、この信頼性の低い媒体の中で現在も運用されている。
このような制限に対処するため,SymPyライブラリを用いた検証コード生成のタスクとして,数学的問題解決を再構築する,ニューロシンボリックなフレームワークであるSymCodeを紹介した。
我々は、MATH-500やOlympiadBenchといった挑戦的なベンチマークでSymCodeを評価し、ベースラインよりも最大13.6ポイントの大幅な精度向上を示した。
分析の結果,SymCodeはトークン効率が高いだけでなく,モデル失敗を不透明な論理的誤りから,透過的でプログラム的なエラーへと根本的にシフトしていることがわかった。
決定論的シンボリックエンジンでLLM推論を基礎にすることで、SymCodeはフォーマルドメインにおけるより正確で信頼性の高いAIへの重要なステップである。
関連論文リスト
- Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [30.938876549335067]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。
有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。
Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文 参考訳(メタデータ) (2025-04-14T16:15:55Z) - Improving Rule-based Reasoning in LLMs using Neurosymbolic Representations [3.5604294978773265]
大規模言語モデル(LLM)は、推論タスクを確実に解決する上で、引き続き課題に直面している。
本稿では,隠れた状態をニューロシンボリックベクターにエンコードすることで,LLM推論を改善する新しいニューロシンボリック手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T20:29:51Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Linear Temporal Logic Modulo Theories over Finite Traces (Extended
Version) [72.38188258853155]
有限トレース(LTLf)上の線形時間論理について検討する。
命題の文字は任意の理論で解釈された一階述語式に置き換えられる。
Satisfiability Modulo Theories (LTLfMT) と呼ばれる結果の論理は半決定可能である。
論文 参考訳(メタデータ) (2022-04-28T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。