論文の概要: CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation
- arxiv url: http://arxiv.org/abs/2602.01660v1
- Date: Mon, 02 Feb 2026 05:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.918731
- Title: CoDiQ: Test-Time Scaling for Controllable Difficult Question Generation
- Title(参考訳): CoDiQ: 制御困難な質問生成のためのテスト時間スケーリング
- Authors: Zhongyuan Peng, Caijun Xu, Changyi Xiao, Shibo Hong, Eli Zhang, Stephen Huang, Yixin Cao,
- Abstract要約: 大規模な推論モデル(LRM)は、競争レベルの問題に対するトレーニングから大きく恩恵を受ける。
既存の自動質問合成手法は、正確な難易度制御、高い計算コスト、大規模競争レベルの質問を生成するのに苦労している。
問題解決性を確保しつつ,テスト時間スケーリングによるきめ細かい難易度制御を可能にする新しいフレームワークであるCoDiQを提案する。
- 参考スコア(独自算出の注目度): 12.550135424877894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) benefit substantially from training on challenging competition-level questions. However, existing automated question synthesis methods lack precise difficulty control, incur high computational costs, and struggle to generate competition-level questions at scale. In this paper, we propose CoDiQ (Controllable Difficult Question Generation), a novel framework enabling fine-grained difficulty control via test-time scaling while ensuring question solvability. Specifically, first, we identify a test-time scaling tendency (extended reasoning token budget boosts difficulty but reduces solvability) and the intrinsic properties defining the upper bound of a model's ability to generate valid, high-difficulty questions. Then, we develop CoDiQ-Generator from Qwen3-8B, which improves the upper bound of difficult question generation, making it particularly well-suited for challenging question construction. Building on the CoDiQ framework, we build CoDiQ-Corpus (44K competition-grade question sequences). Human evaluations show these questions are significantly more challenging than LiveCodeBench/AIME with over 82% solvability. Training LRMs on CoDiQ-Corpus substantially improves reasoning performance, verifying that scaling controlled-difficulty training questions enhances reasoning capabilities. We open-source CoDiQ-Corpus, CoDiQ-Generator, and implementations to support related research.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、競争レベルの問題に対するトレーニングから大きく恩恵を受ける。
しかし、既存の自動質問合成手法は、正確な難易度制御、高い計算コスト、大規模競争レベルの質問の生成に苦慮している。
本稿では,CoDiQ(Controllable Difficult Question Generation)を提案する。
具体的には、まず、テスト時間スケーリング傾向(拡張推論トークン予算は難易度を高めるが、解決可能性を低減する)と、モデルが有効で高微分可能な質問を生成する能力の上限を定義する本質的な特性を特定する。
次に,Qwen3-8BからCoDiQ-Generatorを開発した。
CoDiQフレームワークに基づいてCoDiQ-Corpus(44K競合グレード質問シーケンス)を構築する。
人間の評価によると、これらの質問は82%以上の解決性を持つLiveCodeBench/AIMEよりもはるかに難しい。
CoDiQ-Corpus での LRM の学習は推論性能を大幅に向上させ、制御された微分学習質問のスケーリングが推論能力を向上させることを検証する。
我々は,CoDiQ-Corpus,CoDiQ-Generator,および関連する研究を支援する実装をオープンソース化した。
関連論文リスト
- TTCS: Test-Time Curriculum Synthesis for Self-Evolving [47.826209735956716]
テストタイムトレーニングは、大きな言語モデルの推論能力を改善するための有望な方法を提供する。
テスト時間トレーニングフレームワークTTCSを提案する。
TTCSは,挑戦的な数学ベンチマークにおける推論能力を一貫して強化することを示す。
論文 参考訳(メタデータ) (2026-01-30T06:38:02Z) - QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:29:53Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - Advancing Question Generation with Joint Narrative and Difficulty Control [0.0]
本稿では,これら2つの属性を同時制御し,読解的質問の生成を可能にする,共同物語・難易度制御のための戦略を提案する。
我々の評価は、全てのインスタンスで有効ではないが、このアプローチが実現可能であるという予備的な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-07T14:26:11Z) - Understanding Complexity in VideoQA via Visual Program Generation [31.207902042321006]
ビデオQA(Video Question Answering)における問合せの複雑さを解析するためのデータ駆動型手法を提案する。
我々は、機械学習モデルにおいて、どの質問が難しいかを予測するのに、人間が苦労していることを実験的に示す。
複雑な質問を自動的に生成するように拡張し、一般的なNExT-QAの1.9倍難しい新しいベンチマークを構築します。
論文 参考訳(メタデータ) (2025-05-19T17:55:14Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Guiding the Growth: Difficulty-Controllable Question Generation through
Step-by-Step Rewriting [30.722526598633912]
質問生成システム(QG)は、生成した質問の論理をより強く制御するべきであると論じる。
本稿では,段階的な書き直しによる質問の難易度を段階的に向上させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-05-25T06:43:13Z) - KQA Pro: A Dataset with Explicit Compositional Programs for Complex
Question Answering over Knowledge Base [67.87878113432723]
複雑KBQAのためのデータセットであるKQA Proを紹介する。
各質問に対して、対応するKoPLプログラムとSPARQLクエリを提供するので、KQA ProはKBQAとセマンティック解析の両方に役立ちます。
論文 参考訳(メタデータ) (2020-07-08T03:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。