Fugu-MT 論文翻訳(概要): BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

論文の概要: BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

arxiv url: http://arxiv.org/abs/2501.03226v3
Date: Mon, 17 Feb 2025 06:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.328661
Title: BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
Title（参考訳）: BoostStep: 改良された単一ステップ推論による大規模言語モデルの数学的能力向上
Authors: Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang,
Abstract要約: BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。 AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
参考スコア（独自算出の注目度）: 83.03531832811386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive ability in solving complex mathematical problems with multi-step reasoning and can be further enhanced with well-designed in-context learning (ICL) examples. However, this potential is often constrained by two major challenges in ICL: granularity mismatch and irrelevant information. We observe that while LLMs excel at decomposing mathematical problems, they often struggle with reasoning errors in fine-grained steps. Moreover, ICL examples retrieved at the question level may omit critical steps or even mislead the model with irrelevant details. To address this issue, we propose BoostStep, a method that enhances reasoning accuracy through step-aligned ICL, a novel mechanism that carefully aligns retrieved reference steps with the corresponding reasoning steps. Additionally, BoostStep incorporates an effective "first-try" strategy to deliver exemplars highly relevant to the current state of reasoning. BoostStep is a flexible and powerful method that integrates seamlessly with chain-of-thought (CoT) and tree search algorithms, refining both candidate selection and decision-making. Empirical results show that BoostStep improves GPT-4o's CoT performance by 4.6% across mathematical benchmarks, significantly surpassing traditional few-shot learning's 1.2%. Moreover, it can achieve an additional 7.5\% gain combined with tree search. Surprisingly, it enhances state-of-the-art LLMs to solve challenging math problems using simpler examples. It improves DeepSeek-R1-671B's performance on AIME by 2.2%, leveraging simple examples only from the MATH dataset.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多段階の推論で複雑な数学的問題を解くという印象的な能力を示し、よく設計された文脈内学習(ICL)の例でさらに拡張することができる。しかし、このポテンシャルはICLの2つの大きな課題、すなわち粒度ミスマッチと無関係な情報によって制約されることが多い。 LLMは数学的な問題を解くのに優れていますが、細かなステップでの推論エラーに悩まされることがよくあります。さらに、質問レベルで検索されたICLの例は、重要なステップを省略したり、無関係な詳細でモデルを誤解させることもある。この問題に対処するため,ステップアラインICLによる推論精度を高める手法であるBoostStepを提案する。さらに、BoostStepは効果的な"ファーストトライ"戦略を導入し、現在の推論に非常に関係のある例を提供する。 BoostStepは柔軟で強力な方法であり、チェーン・オブ・ソート(CoT)とツリー検索アルゴリズムをシームレスに統合し、候補の選択と意思決定の両方を精査する。実験の結果、BoostStepはGPT-4oのCoT性能を数学ベンチマークで4.6%改善し、従来の数ショット学習の1.2%を大きく上回った。さらに、木探索と7.5\%の利得も達成できる。驚くべきことに、より単純な例を使って挑戦的な数学問題を解くために、最先端のLLMを強化する。 AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。

関連論文リスト

Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-12-18T15:32:27Z)
EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。 ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文参考訳（メタデータ） (2024-11-06T12:48:04Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文参考訳（メタデータ） (2024-09-26T15:47:42Z)
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。 SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文参考訳（メタデータ） (2024-09-05T06:28:05Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文参考訳（メタデータ） (2024-05-30T06:32:11Z)
Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文参考訳（メタデータ） (2024-05-08T02:48:28Z)
AlphaMath Almost Zero: Process Supervision without Process [6.318873143509028]
我々はモンテカルロ木探索(MCTS)を活用することによってプロセスアノテーションの必要性を回避できる革新的なフレームワークAlphaMathを提案する。このフレームワークは、その数学的推論を自律的に強化する、よく訓練されたLLMの可能性を解き放つことに焦点を当てている。ドメイン内データセットとドメイン外データセットの両方の実験結果から,GPT-4や人手によるプロセス監視がなくても,AlphaMathフレームワークは従来の最先端手法と同等あるいは優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-06T15:20:30Z)
Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。 LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文参考訳（メタデータ） (2023-10-07T08:56:28Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。