論文の概要: SBSC: Step-By-Step Coding for Improving Mathematical Olympiad Performance
- arxiv url: http://arxiv.org/abs/2502.16666v1
- Date: Sun, 23 Feb 2025 17:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:10.751947
- Title: SBSC: Step-By-Step Coding for Improving Mathematical Olympiad Performance
- Title(参考訳): SBSC: 数学的オリンピック性能向上のためのステップバイステップ符号化
- Authors: Kunal Singh, Ankan Biswas, Sayandeep Bhowmick, Pradeep Moturi, Siva Kishore Gollapalli,
- Abstract要約: マルチターン数学推論フレームワークとしてステップバイステップ符号化(SBSC)を提案する。
コード実行出力と以前のステップのプログラムを活用することで、SBSCは次のサブタスクとそれに対応するプログラムを生成する。
大規模な実験は、競合やオリンピアードレベルの数学問題に対するSBSCの有効性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose Step-by-Step Coding (SBSC): a multi-turn math reasoning framework that enables Large Language Models (LLMs) to generate sequence of programs for solving Olympiad level math problems. At each step/turn, by leveraging the code execution outputs and programs of previous steps, the model generates the next sub-task and the corresponding program to solve it. This way, SBSC, sequentially navigates to reach the final answer. SBSC allows more granular, flexible and precise approach to problem-solving compared to existing methods. Extensive experiments highlight the effectiveness of SBSC in tackling competition and Olympiad-level math problems. For Claude-3.5-Sonnet, we observe SBSC (greedy decoding) surpasses existing state-of-the-art (SOTA) program generation based reasoning strategies by absolute 10.7% on AMC12, 8% on AIME and 12.6% on MathOdyssey. Given SBSC is multi-turn in nature, we also benchmark SBSC's greedy decoding against self-consistency decoding results of existing SOTA math reasoning strategies and observe performance gain by absolute 6.2% on AMC, 6.7% on AIME and 7.4% on MathOdyssey.
- Abstract(参考訳): SBSC(Step-by-Step Coding)は,大規模言語モデル(LLM)がオリンピアードレベルの数学問題を解くためのプログラム列を生成するための多ターン数学推論フレームワークである。
各ステップ/ターンでは、コードの実行出力と前のステップのプログラムを活用することで、次のサブタスクとそれに対応するプログラムを生成する。
このようにして、SBSCは、最終回答に到達するために順次ナビゲートする。
SBSCは、既存の方法と比較して、よりきめ細やかな、柔軟で正確な問題解決のアプローチを可能にする。
大規模な実験は、競合やオリンピアードレベルの数学問題に対するSBSCの有効性を強調している。
Claude-3.5-Sonnet の場合、SBSC (greedy decoding) は AMC12 では 10.7% 、AIME では 8% 、MathOdyssey では 12.6% で既存の最先端 (SOTA) プログラム生成の推論戦略を抜いた。
SBSCは本質的にマルチターンなので、既存のSOTA数学推論戦略の自己整合復号結果に対するSBSCの欲求復号をベンチマークし、AMCでは6.2%、AIMEでは6.7%、MathOdysseyでは7.4%の性能向上を観測する。
関連論文リスト
- Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - Enhancing Mathematical Reasoning in LLMs with Background Operators [36.14500963096528]
問題固有の述語と、背景演算子から派生した中間述語を含むPrologソリューションを開発した。
効率的なデータ拡張のために、K-foldクロスバリデード自己学習を適用する。
実験の結果,5倍の自己学習が新しい正確なProlog解を効果的に同定できることが示唆された。
論文 参考訳(メタデータ) (2024-12-05T12:24:54Z) - Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [7.965282234763401]
Step Guidied Reasoningは、数ショット法よりも安定で一般化可能である。
最先端言語モデルにおける数学的性能向上におけるステップガイド推論の意義を実証する。
論文 参考訳(メタデータ) (2024-10-18T01:38:24Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step
Reasoning [15.088675135566646]
自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
我々は,SCのコストを大幅に削減する,シンプルでスケーラブルなサンプリングプロセスである textbfEarpping textbfSelf-textbfConsistency (ESC) を提案する。
論文 参考訳(メタデータ) (2024-01-19T04:03:59Z) - VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency [33.760209585322606]
プログラムベースの解法を用いて,数学語問題に対する強力なオープンソースLLMの性能について検討する。
本稿では,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。
単体一貫性を取り入れた我々のアプローチは、現在、そうでないアプローチに比べてわずかに性能が劣っている。
論文 参考訳(メタデータ) (2023-11-13T09:06:58Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Towards Fair Machine Learning Software: Understanding and Addressing Model Bias Through Counterfactual Thinking [11.668325856032023]
本稿では,機械学習ソフトウェアにおけるバイアスの根本原因に対処するための新しい対策手法を提案する。
提案手法は,性能と公平性の両方に最適化されたモデルを組み合わせることで,両面において最適解となる。
論文 参考訳(メタデータ) (2023-02-16T01:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。