論文の概要: SBSC: Step-By-Step Coding for Improving Mathematical Olympiad Performance
- arxiv url: http://arxiv.org/abs/2502.16666v1
- Date: Sun, 23 Feb 2025 17:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.295162
- Title: SBSC: Step-By-Step Coding for Improving Mathematical Olympiad Performance
- Title(参考訳): SBSC: 数学的オリンピック性能向上のためのステップバイステップ符号化
- Authors: Kunal Singh, Ankan Biswas, Sayandeep Bhowmick, Pradeep Moturi, Siva Kishore Gollapalli,
- Abstract要約: マルチターン数学推論フレームワークとしてステップバイステップ符号化(SBSC)を提案する。
コード実行出力と以前のステップのプログラムを活用することで、SBSCは次のサブタスクとそれに対応するプログラムを生成する。
大規模な実験は、競合やオリンピアードレベルの数学問題に対するSBSCの有効性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Step-by-Step Coding (SBSC): a multi-turn math reasoning framework that enables Large Language Models (LLMs) to generate sequence of programs for solving Olympiad level math problems. At each step/turn, by leveraging the code execution outputs and programs of previous steps, the model generates the next sub-task and the corresponding program to solve it. This way, SBSC, sequentially navigates to reach the final answer. SBSC allows more granular, flexible and precise approach to problem-solving compared to existing methods. Extensive experiments highlight the effectiveness of SBSC in tackling competition and Olympiad-level math problems. For Claude-3.5-Sonnet, we observe SBSC (greedy decoding) surpasses existing state-of-the-art (SOTA) program generation based reasoning strategies by absolute 10.7% on AMC12, 8% on AIME and 12.6% on MathOdyssey. Given SBSC is multi-turn in nature, we also benchmark SBSC's greedy decoding against self-consistency decoding results of existing SOTA math reasoning strategies and observe performance gain by absolute 6.2% on AMC, 6.7% on AIME and 7.4% on MathOdyssey.
- Abstract(参考訳): SBSC(Step-by-Step Coding)は,大規模言語モデル(LLM)がオリンピアードレベルの数学問題を解くためのプログラム列を生成するための多ターン数学推論フレームワークである。
各ステップ/ターンでは、コードの実行出力と前のステップのプログラムを活用することで、次のサブタスクとそれに対応するプログラムを生成する。
このようにして、SBSCは、最終回答に到達するために順次ナビゲートする。
SBSCは、既存の方法と比較して、よりきめ細やかな、柔軟で正確な問題解決のアプローチを可能にする。
大規模な実験は、競合やオリンピアードレベルの数学問題に対するSBSCの有効性を強調している。
Claude-3.5-Sonnet の場合、SBSC (greedy decoding) は AMC12 では 10.7% 、AIME では 8% 、MathOdyssey では 12.6% で既存の最先端 (SOTA) プログラム生成の推論戦略を抜いた。
SBSCは本質的にマルチターンなので、既存のSOTA数学推論戦略の自己整合復号結果に対するSBSCの欲求復号をベンチマークし、AMCでは6.2%、AIMEでは6.7%、MathOdysseyでは7.4%の性能向上を観測する。
関連論文リスト
- Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ
我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。
代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文 参考訳(メタデータ) (2025-03-10T16:56:51Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - Enhancing Mathematical Reasoning in LLMs with Background Operators [36.14500963096528]
問題固有の述語と、背景演算子から派生した中間述語を含むPrologソリューションを開発した。
効率的なデータ拡張のために、K-foldクロスバリデード自己学習を適用する。
実験の結果,5倍の自己学習が新しい正確なProlog解を効果的に同定できることが示唆された。
論文 参考訳(メタデータ) (2024-12-05T12:24:54Z) - Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [7.965282234763401]
Step Guidied Reasoningは、数ショット法よりも安定で一般化可能である。
最先端言語モデルにおける数学的性能向上におけるステップガイド推論の意義を実証する。
論文 参考訳(メタデータ) (2024-10-18T01:38:24Z) - CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks [2.9449838351181374]
後学習,特に強化学習は,大規模言語モデル(LLM)の新しい学習パラダイムとなった
モデル一般化を強化するための高レベルの抽象計画について,アクション空間内での探索を提案する。
GSM8KとMATHを専門にトレーニングした本手法は,性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-09-13T08:59:31Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency [33.760209585322606]
プログラムベースの解法を用いて,数学語問題に対する強力なオープンソースLLMの性能について検討する。
本稿では,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。
単体一貫性を取り入れた我々のアプローチは、現在、そうでないアプローチに比べてわずかに性能が劣っている。
論文 参考訳(メタデータ) (2023-11-13T09:06:58Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Towards Fair Machine Learning Software: Understanding and Addressing Model Bias Through Counterfactual Thinking [11.668325856032023]
本稿では,機械学習ソフトウェアにおけるバイアスの根本原因に対処するための新しい対策手法を提案する。
提案手法は,性能と公平性の両方に最適化されたモデルを組み合わせることで,両面において最適解となる。
論文 参考訳(メタデータ) (2023-02-16T01:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。