論文の概要: Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability
- arxiv url: http://arxiv.org/abs/2505.23703v2
- Date: Wed, 04 Jun 2025 13:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.475266
- Title: Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability
- Title(参考訳): 自然形ハイブリッド推論はLLMの数学能力を高めます
- Authors: Ruida Wang, Yuxin Li, Yi R. Fung, Tong Zhang,
- Abstract要約: FLエキスパートをNL数学の問題解決に組み込むために設計されたエンドツーエンドフレームワークである**NL-FL HybridReasoning**を紹介する。
我々のフレームワークは、**89.80%*と**84.34%*の精度をMATH-500とAMCベンチマークで達成し、それぞれNLベースラインを4.60%上回っている。
- 参考スコア(独自算出の注目度): 10.837509246355099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the mathematical reasoning capabilities of LLMs has garnered significant attention in both the mathematical and computer science communities. Recent works have made substantial progress in both Natural Language (NL) reasoning and Formal Language (FL) reasoning by leveraging the potential of pure Reinforcement Learning (RL) methods on base models. However, RL approaches struggle to impart new capabilities not presented in the base model, highlighting the need to integrate more knowledge like FL into NL math reasoning effectively. Yet, this integration is challenging due to inherent disparities in problem structure and reasoning format between NL and FL. To address these challenges, we introduce **NL-FL HybridReasoning**, an end-to-end framework designed to incorporate the FL expert into NL math problem-solving. To bridge the NL and FL input format gap, we propose the *NL-FL Problem Alignment* method, which reformulates the Question-Answering (QA) problems in NL as existence theorems in FL. Subsequently, the *Mixed Problem Input* technique we provide enables the FL reasoner to handle both QA and existence problems concurrently. Lastly, we mitigate the NL and FL output format gap in reasoning through an LLM-based *Answer Extraction* mechanism. Comprehensive experiments demonstrate that the **HybridReasoning** framework achieves **89.80%** and **84.34%** accuracy rates on the MATH-500 and the AMC benchmarks, surpassing the NL baseline by 4.60% and 4.82%, respectively. Notably, some problems resolved by our framework remain unsolved by the NL baseline model even under a larger number of trials.
- Abstract(参考訳): LLMの数学的推論能力の強化は、数学と計算機科学の両分野において大きな注目を集めている。
最近の研究は、ベースモデル上での純粋な強化学習(RL)手法の可能性を生かして、自然言語推論(NL)と形式言語推論(FL)の両方に大きな進歩を遂げている。
しかし、RLアプローチはベースモデルに提示されない新しい機能を付与するのに苦労し、FLのような知識をNLの数学的推論に効果的に統合する必要性を強調した。
しかし、この統合は、問題構造とNLとFLの推論形式に固有の相違があるため、困難である。
これらの課題に対処するために、我々は**NL-FL HybridReasoning**という、FLエキスパートをNL数学の問題解決に組み込むように設計されたエンドツーエンドフレームワークを紹介した。
NL と FL の入力形式ギャップを埋めるために,NL における質問応答問題 (QA) を FL における存在定理として再構成する *NL-FL Problem Alignment* 法を提案する。
その後、我々が提供した*Mixed Problem Input*技術により、FL推論器はQAと既存の問題を同時に扱うことができる。
最後に,LLM に基づく *Answer extract* 機構を用いて NL と FL の出力形式ギャップを緩和する。
総合的な実験により、**HybridReasoning**フレームワークは**89.80%**と***84.34%**の精度をMATH-500とAMCベンチマークで達成し、それぞれNLベースラインの4.60%と4.82%を上回った。
特に、我々のフレームワークによって解決されたいくつかの問題は、多くの試行の下でもNLベースラインモデルでは未解決のままである。
関連論文リスト
- FANS -- Formal Answer Selection for Natural Language Math Reasoning Using Lean4 [9.732905760042193]
FANS: Lean4を用いた自然言語数学推論のための形式的アンサー選択法を提案する。
LLMの算数推論能力を高めるためにLean4を使用した最初のフレームワークである。
LLMのNL数学能力を強化し、その正解をコンピュータで検証できるソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-05T07:34:53Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Federated Learning with Convex Global and Local Constraints [4.094311966028137]
実際には、多くの機械学習(ML)問題には制約が伴い、適用されたドメインには、他の人と共有できない分散機密データが含まれる。
本稿では,近似ラグランジアン(AL)法に基づくML問題に対する新しいFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:51:32Z) - Deep Equilibrium Models Meet Federated Learning [71.57324258813675]
本研究では,従来の深層学習ネットワークの代わりにDeep Equilibrium(DEQ)モデルを用いて,フェデレートラーニング(FL)問題について検討する。
我々は、DECモデルをフェデレート学習フレームワークに組み込むことで、FLのいくつかのオープンな問題に自然に対処できると主張している。
我々の知る限りでは、この研究は、DECモデルとフェデレーションラーニングの関連性を確立する最初のものである。
論文 参考訳(メタデータ) (2023-05-29T22:51:40Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - ISFL: Federated Learning for Non-i.i.d. Data with Local Importance Sampling [17.29669920752378]
理論的保証のある明示的な枠組みであるISFLを提案する。
我々はISFLの収束定理を導出し、局所的な重要度サンプリングの効果を含む。
我々は、IS重みを計算し、ISFLアルゴリズムを開発するために、水充填法を用いる。
論文 参考訳(メタデータ) (2022-10-05T09:43:58Z) - Delay Minimization for Federated Learning Over Wireless Communication
Networks [172.42768672943365]
無線通信ネットワーク上でのフェデレーション学習(FL)における遅延計算の問題について検討した。
最適解を得るために,二項探索アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムは従来のFL法と比較して最大27.3%遅延を低減できることがわかった。
論文 参考訳(メタデータ) (2020-07-05T19:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。