論文の概要: Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation
- arxiv url: http://arxiv.org/abs/2602.03950v1
- Date: Tue, 03 Feb 2026 19:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.243223
- Title: Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation
- Title(参考訳): 実行駆動推論強化によるLLMにおける数学的問題解決の促進
- Authors: Aditya Basarkar, Benyamin Tabarsi, Tiffany Barnes, Dongkuan, Xu,
- Abstract要約: Iteratively Improved Program Construction (IIPC) は、プログラム的推論チェーンを反復的に洗練し、実行フィードバックをベースLLMのネイティブチェーン能力と組み合わせる推論手法である。
IIPCは、複数のベース LLM 上の推論ベンチマークの大部分において、競合するアプローチを上回っている。
- 参考スコア(独自算出の注目度): 4.061942541343224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical problem solving is a fundamental benchmark for assessing the reasoning capabilities of artificial intelligence and a gateway to applications in education, science, and engineering where reliable symbolic reasoning is essential. Although recent advances in multi-agent LLM-based systems have enhanced their mathematical reasoning capabilities, they still lack a reliably revisable representation of the reasoning process. Existing agents either operate in rigid sequential pipelines that cannot correct earlier steps or rely on heuristic self-evaluation that can fail to identify and fix errors. In addition, programmatic context can distract language models and degrade accuracy. To address these gaps, we introduce Iteratively Improved Program Construction (IIPC), a reasoning method that iteratively refines programmatic reasoning chains and combines execution feedback with the native Chain-of-thought abilities of the base LLM to maintain high-level contextual focus. IIPC surpasses competing approaches in the majority of reasoning benchmarks on multiple base LLMs. All code and implementations are released as open source.
- Abstract(参考訳): 数学的問題解決は、人工知能の推論能力を評価するための基本的なベンチマークであり、信頼できる記号的推論が不可欠である教育、科学、工学の応用へのゲートウェイである。
近年のマルチエージェント LLM ベースのシステムでは、数学的推論能力が向上しているが、推論プロセスの確実に修正可能な表現はいまだに欠如している。
既存のエージェントは、以前のステップを修正できない厳格なシーケンシャルパイプラインで運用するか、エラーを特定し修正するのに失敗するヒューリスティックな自己評価に依存している。
さらに、プログラム的コンテキストは言語モデルに注意をそらし、精度を低下させる。
これらのギャップに対処するために,プログラム的推論連鎖を反復的に洗練し,実行フィードバックをベースLLMのネイティブ・チェーン・オブ・コンテクスト能力と組み合わせて高レベルな文脈焦点を維持する推論手法であるIIPC(Iteratively Improved Program Construction)を導入する。
IIPCは、複数のベース LLM 上の推論ベンチマークの大部分において、競合するアプローチを上回っている。
すべてのコードと実装はオープンソースとしてリリースされている。
関連論文リスト
- Eliciting Chain-of-Thought in Base LLMs via Gradient-Based Representation Optimization [22.301471821413816]
Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)にとって重要な機能である。
そこで本研究では, 条件付き状態操作により, ベースLLMからElic-Iting CoTを推論する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-24T13:55:57Z) - Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code [29.382261465478248]
コードや数学の問題を通した因果推論を運用するフレームワークである実行可能逆ファクトアルを導入する。
その結果,o4-mini や Claude-4-Sonnet などの SOTA モデルでは,介入による精度 (25-40%) の低下が認められた。
また、コードで訓練されたモデルが、反実数ワード問題に一般化するかどうかを検証した。
論文 参考訳(メタデータ) (2025-10-02T00:26:35Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Do LLMs Dream of Discrete Algorithms? [0.7646713951724011]
大規模言語モデル(LLM)は、人工知能の風景を急速に変化させてきた。
確率的推論への依存は、厳密な論理的推論を必要とする領域における有効性を制限する。
本稿では,論理ベースの推論モジュールでLLMを増強するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-29T22:03:01Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。