論文の概要: PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.02324v1
- Date: Tue, 04 Mar 2025 06:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:26.270773
- Title: PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models
- Title(参考訳): PromptCoT:大規模言語モデルにおける数学的推論のためのオリンピックレベルの問題を合成する
- Authors: Xueliang Zhao, Wei Wu, Jian Guan, Lingpeng Kong,
- Abstract要約: 本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 59.920971312822736
- License:
- Abstract: The ability of large language models to solve complex mathematical problems has progressed significantly, particularly for tasks requiring advanced reasoning. However, the scarcity of sufficiently challenging problems, particularly at the Olympiad level, hinders further advancements. In this work, we introduce PromptCoT, a novel approach for automatically generating high-quality Olympiad-level math problems. The proposed method synthesizes complex problems based on mathematical concepts and the rationale behind problem construction, emulating the thought processes of experienced problem designers. We provide a theoretical analysis demonstrating that an optimal rationale should maximize both the likelihood of rationale generation given the associated concepts and the likelihood of problem generation conditioned on both the rationale and the concepts. Our method is evaluated on standard benchmarks including GSM8K, MATH-500, and AIME2024, where it consistently outperforms existing problem generation methods. Furthermore, we demonstrate that PromptCoT exhibits superior data scalability, consistently maintaining high performance as the dataset size increases, outperforming the baselines. The implementation is available at https://github.com/zhaoxlpku/PromptCoT.
- Abstract(参考訳): 複雑な数学的問題を解くための大規模言語モデルの能力は、特に高度な推論を必要とするタスクにおいて著しく進歩している。
しかし、特にオリンピアードレベルでの十分な困難さは、さらなる進歩を妨げる。
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,経験豊富な問題設計者の思考過程をエミュレートし,数学的概念と問題構築の背後にある理論的根拠に基づいて複雑な問題を合成する。
理論的には、関連する概念が与えられた有理数生成の確率と、有理数と概念の両方に条件づけられた問題生成の確率の両方を最大化すべきである。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
さらに,PromptCoTはデータスケーラビリティに優れ,データセットのサイズが大きくなるにつれて高いパフォーマンスを維持し,ベースラインよりも優れることを示した。
実装はhttps://github.com/zhaoxlpku/PromptCoT.comで公開されている。
関連論文リスト
- MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - Proving Olympiad Algebraic Inequalities without Human Demonstrations [3.3466865213133836]
複雑な不等式定理を自律的に生成できる代数的不等式証明システムである AIPS を提案する。
20 Olympiadレベルの不等式に関するテストセットでは、AIPSは10の解決に成功し、最先端の手法よりも優れていた。
1つの定理が2024年の大都市オリンピアードの競争問題に選ばれた。
論文 参考訳(メタデータ) (2024-06-20T11:37:53Z) - VC Search: Bridging the Gap Between Well-Defined and Ill-Defined Problems in Mathematical Reasoning [46.25056744404318]
5000以上の不確定な数学的問題を含むPMC(Issue with Missing and Contradictory conditions)というベンチマークを開発した。
VCSEARCHは、解決不可能な問題を特定する精度を、さまざまな大きな言語モデルで少なくとも12%向上させる。
論文 参考訳(メタデータ) (2024-06-07T16:24:12Z) - MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems [10.517708404982624]
本稿では,条件マイニングのためのtextitMulti-Agent システム (textbfMACM) を提案する。
複雑な数学的問題を解き、様々な数学的文脈にまたがる強力な一般化能力を示す。
MACMの助けを借りて、GPT-4 Turboの精度は、MATHデータセットの最も難しい5つの数学的な問題を、$mathbf54.68%テキストからmathbf76.73%$へと引き上げた。
論文 参考訳(メタデータ) (2024-04-06T21:39:01Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Sparse Polynomial Optimization: Theory and Practice [5.27013884159732]
本書は、この課題に重要な科学的意味を持って取り組むためのいくつかの取り組みを提示している。
これは計算複雑性の観点からうまくスケールする代替の最適化スキームを提供する。
制約のない問題や制約のない問題に対して、緩和の疎開的階層を提示する。
論文 参考訳(メタデータ) (2022-08-23T18:56:05Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。