論文の概要: Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.09907v1
- Date: Fri, 14 Nov 2025 01:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.569125
- Title: Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models
- Title(参考訳): ポース問題への学習:大規模推論モデルのための推論駆動およびソルバー適応データ合成
- Authors: Yongxian Wei, Yilin Zhao, Li Shen, Xinrui Chen, Runxi Cheng, Sinan Du, Hao Yu, Gang Liu, Jiahong Yan, Chun Yuan, Dian Li,
- Abstract要約: 本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。
我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。
本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
- 参考スコア(独自算出の注目度): 54.29243291958429
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data synthesis for training large reasoning models offers a scalable alternative to limited, human-curated datasets, enabling the creation of high-quality data. However, existing approaches face several challenges: (i) indiscriminate generation that ignores the solver's ability and yields low-value problems, or reliance on complex data pipelines to balance problem difficulty; and (ii) a lack of reasoning in problem generation, leading to shallow problem variants. In this paper, we develop a problem generator that reasons explicitly to plan problem directions before synthesis and adapts difficulty to the solver's ability. Specifically, we construct related problem pairs and augment them with intermediate problem-design CoT produced by a reasoning model. These data bootstrap problem-design strategies from the generator. Then, we treat the solver's feedback on synthetic problems as a reward signal, enabling the generator to calibrate difficulty and produce complementary problems near the edge of the solver's competence. Extensive experiments on 10 mathematical and general reasoning benchmarks show that our method achieves an average improvement of 2.5% and generalizes to both language and vision-language models. Moreover, a solver trained on the synthesized data provides improved rewards for continued generator training, enabling co-evolution and yielding a further 0.7% performance gain. Our code will be made publicly available here.
- Abstract(参考訳): 大きな推論モデルをトレーニングするためのデータ合成は、制限された人為的なデータセットに代わるスケーラブルな代替手段を提供し、高品質なデータの作成を可能にする。
しかし、既存のアプローチはいくつかの課題に直面している。
一 解決者の能力を無視して低価値の問題を生じさせる無差別な生成、又は複雑なデータパイプラインに依存して問題の困難さをバランスさせること。
(II)問題生成における推論の欠如により、浅い問題変異が生じる。
本稿では,合成前に問題方向を明示的に計画し,解決者の能力に適応させる問題生成器を開発する。
具体的には、関連する問題ペアを構築し、推論モデルによって生成された中間的問題設計CoTでそれらを拡張する。
これらのデータブートストラップはジェネレータによる問題設計戦略である。
そこで,本稿では,合成問題のフィードバックを報奨信号として扱うことにより,生成元が困難を校正し,解決者の能力の限界付近で相補的な問題を発生させることができる。
10の数学的および一般的な推論ベンチマークにおいて、我々の手法は平均2.5%の改善を実現し、言語モデルと視覚言語モデルの両方に一般化することを示す。
さらに、合成データに基づいて訓練された解法は、継続した発電機訓練に対する報奨を向上し、共進化を可能にし、さらに0.7%の性能向上をもたらす。
私たちのコードはここで公開されます。
関連論文リスト
- QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:29:53Z) - ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。
難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。
我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文 参考訳(メタデータ) (2025-09-25T12:22:44Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - SPARQ: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms [4.569384312180347]
SPARQ: Quality-Diversity Algorithmによる推論のための合成問題生成について述べる。
1つのモデルのみを用いて高品質で多様な合成数学問題と解対を生成する。
本研究では, 生成したデータを難易度でフィルタリングし, 同じモデルを微調整することで, 相対モデルの性能を最大24%向上させることを示す。
論文 参考訳(メタデータ) (2025-06-06T19:49:42Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。