論文の概要: Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability
- arxiv url: http://arxiv.org/abs/2505.23703v2
- Date: Wed, 04 Jun 2025 13:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.475266
- Title: Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability
- Title(参考訳): 自然形ハイブリッド推論はLLMの数学能力を高めます
- Authors: Ruida Wang, Yuxin Li, Yi R. Fung, Tong Zhang,
- Abstract要約: FLエキスパートをNL数学の問題解決に組み込むために設計されたエンドツーエンドフレームワークである**NL-FL HybridReasoning**を紹介する。
我々のフレームワークは、**89.80%*と**84.34%*の精度をMATH-500とAMCベンチマークで達成し、それぞれNLベースラインを4.60%上回っている。
- 参考スコア(独自算出の注目度): 10.837509246355099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing the mathematical reasoning capabilities of LLMs has garnered significant attention in both the mathematical and computer science communities. Recent works have made substantial progress in both Natural Language (NL) reasoning and Formal Language (FL) reasoning by leveraging the potential of pure Reinforcement Learning (RL) methods on base models. However, RL approaches struggle to impart new capabilities not presented in the base model, highlighting the need to integrate more knowledge like FL into NL math reasoning effectively. Yet, this integration is challenging due to inherent disparities in problem structure and reasoning format between NL and FL. To address these challenges, we introduce **NL-FL HybridReasoning**, an end-to-end framework designed to incorporate the FL expert into NL math problem-solving. To bridge the NL and FL input format gap, we propose the *NL-FL Problem Alignment* method, which reformulates the Question-Answering (QA) problems in NL as existence theorems in FL. Subsequently, the *Mixed Problem Input* technique we provide enables the FL reasoner to handle both QA and existence problems concurrently. Lastly, we mitigate the NL and FL output format gap in reasoning through an LLM-based *Answer Extraction* mechanism. Comprehensive experiments demonstrate that the **HybridReasoning** framework achieves **89.80%** and **84.34%** accuracy rates on the MATH-500 and the AMC benchmarks, surpassing the NL baseline by 4.60% and 4.82%, respectively. Notably, some problems resolved by our framework remain unsolved by the NL baseline model even under a larger number of trials.
- Abstract(参考訳): LLMの数学的推論能力の強化は、数学と計算機科学の両分野において大きな注目を集めている。
最近の研究は、ベースモデル上での純粋な強化学習(RL)手法の可能性を生かして、自然言語推論(NL)と形式言語推論(FL)の両方に大きな進歩を遂げている。
しかし、RLアプローチはベースモデルに提示されない新しい機能を付与するのに苦労し、FLのような知識をNLの数学的推論に効果的に統合する必要性を強調した。
しかし、この統合は、問題構造とNLとFLの推論形式に固有の相違があるため、困難である。
これらの課題に対処するために、我々は**NL-FL HybridReasoning**という、FLエキスパートをNL数学の問題解決に組み込むように設計されたエンドツーエンドフレームワークを紹介した。
NL と FL の入力形式ギャップを埋めるために,NL における質問応答問題 (QA) を FL における存在定理として再構成する *NL-FL Problem Alignment* 法を提案する。
その後、我々が提供した*Mixed Problem Input*技術により、FL推論器はQAと既存の問題を同時に扱うことができる。
最後に,LLM に基づく *Answer extract* 機構を用いて NL と FL の出力形式ギャップを緩和する。
総合的な実験により、**HybridReasoning**フレームワークは**89.80%**と***84.34%**の精度をMATH-500とAMCベンチマークで達成し、それぞれNLベースラインの4.60%と4.82%を上回った。
特に、我々のフレームワークによって解決されたいくつかの問題は、多くの試行の下でもNLベースラインモデルでは未解決のままである。
関連論文リスト
- FANS -- Formal Answer Selection for Natural Language Math Reasoning Using Lean4 [9.732905760042193]
FANS: Lean4を用いた自然言語数学推論のための形式的アンサー選択法を提案する。
LLMの算数推論能力を高めるためにLean4を使用した最初のフレームワークである。
LLMのNL数学能力を強化し、その正解をコンピュータで検証できるソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-05T07:34:53Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Federated Learning with Convex Global and Local Constraints [4.094311966028137]
実際には、多くの機械学習(ML)問題には制約が伴い、適用されたドメインには、他の人と共有できない分散機密データが含まれる。
本稿では,近似ラグランジアン(AL)法に基づくML問題に対する新しいFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:51:32Z) - ISFL: Federated Learning for Non-i.i.d. Data with Local Importance Sampling [17.29669920752378]
理論的保証のある明示的な枠組みであるISFLを提案する。
我々はISFLの収束定理を導出し、局所的な重要度サンプリングの効果を含む。
我々は、IS重みを計算し、ISFLアルゴリズムを開発するために、水充填法を用いる。
論文 参考訳(メタデータ) (2022-10-05T09:43:58Z) - Delay Minimization for Federated Learning Over Wireless Communication
Networks [172.42768672943365]
無線通信ネットワーク上でのフェデレーション学習(FL)における遅延計算の問題について検討した。
最適解を得るために,二項探索アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムは従来のFL法と比較して最大27.3%遅延を低減できることがわかった。
論文 参考訳(メタデータ) (2020-07-05T19:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。