論文の概要: PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2509.19894v1
- Date: Wed, 24 Sep 2025 08:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.744615
- Title: PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
- Title(参考訳): PromptCoT 2.0:大規模言語モデル推論のためのスケーリングプロンプト合成
- Authors: Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong,
- Abstract要約: 大規模言語モデル(LLM)は、会話システムからオリンピアード数学や競合プログラミングといったタスクの強力な推論へと進化している。
本稿では,手作り合成を期待最大化ループで置き換えるスケーラブルなフレームワークであるPromptCoT 2.0を提案する。
これにより、以前のコーパスよりも難しく、より多様な問題が発生する。
- 参考スコア(独自算出の注目度): 55.78158607697319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are evolving from conversational systems into strong reasoners for tasks such as Olympiad mathematics and competitive programming. While scaling parameters and test-time computation has driven progress, a key bottleneck is the lack of high-quality training problems: human-curated datasets are costly and limited, while existing synthetic corpora are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales into prompt synthesis increases problem difficulty. Building on this, we present PromptCoT 2.0, a scalable framework that replaces hand-crafted heuristics with an expectation-maximization (EM) loop, where rationales are iteratively refined to guide prompt construction. This produces problems that are both harder and more diverse than prior corpora. The synthetic prompts support two post-training regimes: (1) Self-Play, where strong models improve autonomously via verifiable feedback without stronger teachers; and (2) Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled traces. Extensive experiments demonstrate the effectiveness of this approach. In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME 24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5), surpassing models trained on human or hybrid data. Analyses further confirm that PromptCoT 2.0 yields fundamentally harder and distributionally distinct problems. These results establish prompt synthesis as a new axis for scaling reasoning and position PromptCoT 2.0 as a scalable foundation for future open-source models. The implementation is available at https://github.com/inclusionAI/PromptCoT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、会話システムからオリンピアード数学や競合プログラミングといったタスクの強力な推論へと進化している。
パラメータのスケーリングとテストタイムの計算が進歩しているが、重要なボトルネックは、高品質なトレーニング問題の欠如である。
PromptCoT 1.0は、素早い合成に合理性を注入すると問題の難しさが増すことを示した。
これに基づいて,手作りのヒューリスティックを期待最大化(EM)ループに置き換えるスケーラブルなフレームワークであるPromptCoT 2.0を提案する。
これにより、以前のコーパスよりも難しく、より多様な問題が発生する。
本研究は,(1)より強い教師を伴わない検証可能なフィードバックによって,強いモデルが自律的に向上するセルフプレイ,(2)弱いモデルが教師に教えられた痕跡から学習するスーパーバイザードファインチューニング(SFT)の2つのポストトレーニング体制を支援する。
大規模な実験は、このアプローチの有効性を実証している。
セルフプレイでは、Qwen3-30B-A3B-Thinking-2507にPromptCoT 2.0を適用し、AIME 24/25およびHMMT 25、+6.1、+5.0、LiveCodeBench v5/v6、+35 Elo on Codeforcesでは+4.4、+4.8、+5.3という新しい最先端の結果を30Bスケールで設定する。
SFTでは、合成プロンプトのみに基づくQwen2.5-7B-Instructのトレーニングにより、精度は73.1(AIME 24)、65.6(AIME 25)、53.4(LiveCodeBench v5)に向上し、人間またはハイブリッドデータで訓練されたモデルを上回る。
分析により、PromptCoT 2.0が根本的に難しく、分布的に異なる問題をもたらすことが確認される。
これらの結果は、プロンプトCoT 2.0を将来のオープンソースモデルのためのスケーラブルな基盤として位置づけ、推論をスケールするための新しい軸として即時合成を確立する。
実装はhttps://github.com/inclusionAI/PromptCoT.comで公開されている。
関連論文リスト
- CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification [9.332807762710127]
Infinite-Instructは高品質な質問応答ペアのための自動フレームワークである。
このフレームワークは、合成問題の内部ロジックの改善に焦点を当てている。
言語間の静的コード解析パイプラインは、データ品質を保証するために無効なサンプルをフィルタする。
論文 参考訳(メタデータ) (2025-05-29T07:14:43Z) - LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。
本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。
既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2025-04-21T18:10:38Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。