論文の概要: QueST: Incentivizing LLMs to Generate Difficult Problems
- arxiv url: http://arxiv.org/abs/2510.17715v1
- Date: Mon, 20 Oct 2025 16:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.131292
- Title: QueST: Incentivizing LLMs to Generate Difficult Problems
- Title(参考訳): QueST: 難しい問題を生成するためのLLMのインセンティブ
- Authors: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei,
- Abstract要約: 大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
- 参考スコア(独自算出の注目度): 77.75835742350644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.
- Abstract(参考訳): 大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
しかし、そのスケーラビリティは、人間のラベル付きデータセットと、大規模で挑戦的なコーディング問題トレーニングデータの欠如によって制限されている。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
従来の合成データ生成手法は、既存の命令データセットを増強するか、人間のラベル付きデータから難しい問題を選択するかのいずれかに依存している。
本稿では,難解なグラフサンプリングと難解なリジェネレータの微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
訓練された発電機は,下流の性能向上に寄与する課題を発生させる上で,GPT-4oよりも優れた性能を示す。
QueSTを利用して大規模な合成コーディング問題を発生させ、それを長鎖の強い教師モデルから抽出したり、より小さなモデルの強化学習を行ない、両方のシナリオで有効であることを示す。
蒸留実験により, 高い性能が得られた。
具体的には、Qwen3-8BベースをQueSTが生成した100K問題に対して微調整した後、LiveCodeBench上での最初のQwen3-8Bのパフォーマンスを上回ります。
追加の112Kの例(つまり、複数の合成ソリューションと組み合わせた28Kの人書き問題)で、我々の8Bモデルははるかに大きなDeepSeek-R1-671Bの性能と一致する。
以上の結果から,QueSTによる複雑な問題生成は,大規模言語モデルの競合的コーディングと推論のフロンティアを前進させる上で,効果的かつスケーラブルなアプローチをもたらすことが示唆された。
関連論文リスト
- UniCode: A Framework for Generating High Quality Competitive Coding Problems [41.66698149759178]
UniCodeは、堅牢で汚染に強いテストケースと並行して、高品質なアルゴリズム問題を自動生成する新しいフレームワークである。
トップパフォーマンスのモデルであるo4-miniが70.3%のパス率しか達成していないため、UniCodeは非常に困難で差別的であることを示す。
論文 参考訳(メタデータ) (2025-10-16T05:07:12Z) - ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。
難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。
我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文 参考訳(メタデータ) (2025-09-25T12:22:44Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Synthesis by Design: Controlled Data Generation via Structural Guidance [7.938713951512933]
数学的推論から生成した問題解決コードを用いて構造情報を抽出する。
提案手法は,ラベル付き中間ステップと6.1K-problemベンチマークで39Kの問題を発生させる。
ベンチマークの結果,推論長の増加に伴いモデル性能が低下することが示された。
論文 参考訳(メタデータ) (2025-06-09T11:38:23Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Training and Evaluating Language Models with Template-based Data Generation [5.980612601840882]
本稿では,フロンティアLSM(GPT-4)を利用してメタテンプレートを自動生成する新しいパラダイムであるTDGを紹介する。
メタテンプレート生成にGPT-4を用い,多種多様な複雑な問題構造を保証し,データ拡張を行った。
論文 参考訳(メタデータ) (2024-11-27T07:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。