論文の概要: NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect
- arxiv url: http://arxiv.org/abs/2603.02504v2
- Date: Wed, 04 Mar 2026 13:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.89105
- Title: NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect
- Title(参考訳): NeuroProlog: Cocktail 効果によるニューロシンボリックな数学的推論のためのマルチタスクファインチューニング
- Authors: Pratibha Zunjare, Michael Hsiao,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理において高い性能を発揮するが、数学的推論では信頼性に欠ける。
我々は,数学用語の問題を実行可能なPrologプログラムにコンパイルすることで,検証可能な推論を保証する,ニューロシンボリックなフレームワークである textbfNeuroProlog を提案する。
- 参考スコア(独自算出の注目度): 0.12277343096128711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve strong performance on natural language tasks but remain unreliable in mathematical reasoning, frequently generating fluent yet logically inconsistent solutions. We present \textbf{NeuroProlog}, a neurosymbolic framework that ensures verifiable reasoning by compiling math word problems into executable Prolog programs with formal verification guarantees. We propose a multi-task Cocktail training strategy that jointly optimizes three synergistic objectives in a unified symbolic representation space: (i) mathematical formula-to-rule translation (KB), (ii) natural language-to-program synthesis (SOLVE), and (iii) program-answer alignment. This joint supervision enables positive transfer, where symbolic grounding in formula translation directly improves compositional reasoning capabilities. At inference, we introduce an execution-guided decoding pipeline with fine-grained error taxonomy that enables iterative program repair and quantifies model self-debugging capacity. Comprehensive evaluation on GSM8K across four model scales (3B--32B parameters) demonstrates consistent improvements: cocktail training achieves significant accuracy gains of +5.23\% (Qwen-32B, $p < 0.01$), +3.43\% (GPT-OSS-20B, $p < 0.01$), and +5.54\% (Llama-3B, $p < 0.05$) over single-task baselines. Systematic error analysis reveals scale-dependent learning dynamics: at 32B scale, cocktail training transforms unfixable type errors (12\% repair rate) into correctable domain errors (96\% repair rate), achieving 92.7\% overall correction; at 8B scale, the same training eliminates syntactic errors but introduces semantic failures, revealing a critical capacity threshold for type-safe symbolic reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のタスクにおいて高い性能を達成するが、数学的推論では信頼性が保たれず、しばしば流動的で論理的に一貫性のないソリューションを生成する。
本稿では,数学用語の問題を形式的検証保証付き実行可能なPrologプログラムにコンパイルすることで,検証可能な推論を保証する,ニューロシンボリックなフレームワークである‘textbf{NeuroProlog} を提案する。
統一された記号表現空間における3つの相乗的目的を共同で最適化するマルチタスク・コックテール・トレーニング戦略を提案する。
(i)数式-ルール変換(KB)
(II)自然言語対プログラミング合成(SOLVE)、及び
(iii)プログラム・アンサー・アライメント。
この共同指導は正の伝達を可能にし、公式翻訳における記号的基底は直接的に構成的推論能力を向上させる。
推論の際には,プログラムの反復的な修復と自己デバッグ能力の定量化が可能な,微粒なエラー分類を持つ実行誘導型デコードパイプラインを導入する。
GSM8Kを4つのモデルスケール(3B-32Bパラメータ)で総合的に評価すると、一貫した改善が示される: カクテルトレーニングは、シングルタスクベースライン上で、+5.23\%(Qwen-32B, $p < 0.01$), +3.43\%(GPT-OSS-20B, $p < 0.01$), +5.54\%(Llama-3B, $p < 0.05$)の大幅な精度向上を達成する。
32Bスケールでは、カクテルトレーニングは修正不可能な型エラー(12\%の修復率)を修正不能なドメインエラー(96\%の修復率)に変換し、92.7%の全体的な修正を達成する。
関連論文リスト
- ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Training Language Models to Use Prolog as a Tool [2.4305775926851334]
検証可能な計算のための外部ツールとしてPrologを使用するための言語モデルを微調整する。
この結果から,形式的検証システムにおける基礎モデル推論は,安全クリティカルなアプリケーションに対する信頼性と監査性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-08T10:39:38Z) - Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - Automated Repair of C Programs Using Large Language Models [0.0]
本研究では,Cプログラムの修復を自動化する上で,LLM(Large Language Models)の可能性について検討する。
本稿では,SBFL(Spectrum-based Fault Localization),ランタイムフィードバック,Chain-of-Thought-structured(Chain-of-Thought-structured)を自動修復ループに統合するフレームワークを提案する。
我々の手法は44.93%の修理精度を達成し、最先端のAPRベースラインに対する3.61%の絶対的な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T04:34:11Z) - Bridging Formal Language with Chain-of-Thought Reasoning to Geometry Problem Solving [9.550050299909184]
我々はChain-of-Thought(CoT)とフォーマル言語を統合する新しいアプローチを提案する。
このモデルは、ソルバ実行可能コードの漸進的な排出を伴う自然言語推論をインターリーブする。
Qwen2.5-VL-7Bに基づいて構築された新しいモデルGF-Reasonerは、標準GPSベンチマークで最大15%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-08-12T17:26:23Z) - Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。