論文の概要: BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
- arxiv url: http://arxiv.org/abs/2501.03226v1
- Date: Mon, 06 Jan 2025 18:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:00.096704
- Title: BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
- Title(参考訳): BoostStep: 改良された単一ステップ推論による大規模言語モデルの数学的能力向上
- Authors: Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang,
- Abstract要約: 配当パイプラインの各ステップにおける推論品質の改善に注力する。
BoostStepは、粗い質問のきめ細かい戦略よりも、より関連性の高い例を提供する。
GPT-4oとQwen2.5-Math-72Bをそれぞれ3.6%と2.0%改善する。
- 参考スコア(独自算出の注目度): 83.03531832811386
- License:
- Abstract: Cutting-edge large language models (LLMs) demonstrate promising performance in solving complex math problems with a divide-and-conquer pipeline and the assistance of in-context learning (ICL) examples. However, their potential for improvement is limited by two critical problems within their ICL examples: granularity-mismatch and the ensuing negative-effect noise problem. Specifically, the LLMs are capable of the dividing process yet mostly failed by inaccurate reasoning within a few conquer steps, while the ICL examples retrieved in question-grained sometimes lack relevant steps for a specific challenging reasoning step. Further, this disconnect may hinder the correct reasoning due to its irrelevance. To this end, we focus on improving the reasoning quality within each step and present BoostStep. BoostStep aligns the granularity between the retrieving and reasoning on step grained, and provides highly related ICL examples for each reasoning step with a novel `first-try' strategy. BoostStep provides more relevant examples than the coarse question-grained strategy, enhancing the model reasoning quality within each step steadily. BoostStep is a general and robust reasoning-enhancing method that not only improves standalone reasoning performance but also integrates seamlessly with Monte Carlo Tree Search methods (MCTS) to refine both candidate generation and decision-making. Quantitatively, it improves GPT-4o and Qwen2.5-Math-72B by 3.6\% and 2.0\% respectively on various mathematical benchmarks, and 7.5\% gain combined with MCTS.
- Abstract(参考訳): カットエッジな大規模言語モデル(LLM)は、分割・問合せパイプラインとコンテキスト内学習(ICL)の例による複雑な数学問題を解く上で、有望な性能を示す。
しかし、その改善の可能性は、ICLの2つの重要な問題、すなわち粒度ミスマッチとそれに続く負効果ノイズの問題によって制限されている。
具体的には、LSMは分割過程が可能であるが、いくつかの計算ステップで不正確な推論を行うことによってほとんど失敗するが、ICLの例は、特定の難解な推論ステップに関連性のあるステップを欠いていることがある。
さらに、この切断は、その無関係のために正しい推論を妨げる可能性がある。
この目的のために、各ステップにおける推論品質の改善に注力し、BoostStepを提示します。
BoostStepは、ステップのきめ細かい検索と推論の粒度を調整し、新しい‘ファーストトライ’戦略によって、各推論ステップに非常に関連性の高いICL例を提供する。
BoostStepは、粗い質問粒度の戦略よりも関連する例を提供し、各ステップにおけるモデル推論の品質を着実に向上させます。
BoostStepは、スタンドアロンの推論性能を向上するだけでなく、モンテカルロ木探索法(MCTS)とシームレスに統合して、候補生成と意思決定の両方を改良する汎用的で堅牢な推論向上手法である。
定量的には、GPT-4oとQwen2.5-Math-72Bをそれぞれ3.6\%、2.0\%改善し、7.5\%ゲインをMCTSと組み合わせている。
関連論文リスト
- Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。
ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文 参考訳(メタデータ) (2024-11-06T12:48:04Z) - BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search [22.672130194493793]
大規模言語モデル(LLM)は、幅広いタスクやドメインで例外的なパフォーマンスを示している。
彼らは数学の厳密で論理的な性質のため、数学の問題を解くのに依然として困難に直面している。
本稿では,数学的問題解決能力を高めるための新しい手法BEATSを提案する。
論文 参考訳(メタデータ) (2024-09-26T15:47:42Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models [73.4425450752596]
チェーン・オブ・シント(CoT)のプロンプトによって、大きな言語モデル(LLM)の推論の可能性は著しく解放された。
しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。
LLMにおける多段階推論を推し進める新しいプロンプト戦略であるRESPROMPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:56:28Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。