論文の概要: QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
- arxiv url: http://arxiv.org/abs/2507.13266v1
- Date: Thu, 17 Jul 2025 16:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.575201
- Title: QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
- Title(参考訳): QuestA: LLMにおける推論能力の拡張
- Authors: Jiazheng Li, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Hongzhou Lin, Yi Wu, Jingzhao Zhang,
- Abstract要約: 強化学習(RL)は、大規模言語推論モデル(LLM)の訓練において重要な要素となっている。
本稿では,問題の難易度を低減し,より情報的な学習信号を提供するため,質問増補による簡易かつ効果的な戦略を提案する。
我々の方法であるQuestAは、数学推論タスクにおけるRLトレーニングで適用された場合、pass@1だけでなくpass@kも改善する。
- 参考スコア(独自算出の注目度): 23.385267989706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a key component in training large language reasoning models (LLMs). However, recent studies questions its effectiveness in improving multi-step reasoning-particularly on hard problems. To address this challenge, we propose a simple yet effective strategy via Question Augmentation: introduce partial solutions during training to reduce problem difficulty and provide more informative learning signals. Our method, QuestA, when applied during RL training on math reasoning tasks, not only improves pass@1 but also pass@k-particularly on problems where standard RL struggles to make progress. This enables continual improvement over strong open-source models such as DeepScaleR and OpenMath Nemotron, further enhancing their reasoning capabilities. We achieve new state-of-the-art results on math benchmarks using 1.5B-parameter models: 67.1% (+5.3%) on AIME24, 59.5% (+10.0%) on AIME25, and 35.5% (+4.0%) on HMMT25. Further, we provide theoretical explanations that QuestA improves sample efficiency, offering a practical and generalizable pathway for expanding reasoning capability through RL.
- Abstract(参考訳): 強化学習(RL)は、大規模言語推論モデル(LLM)のトレーニングにおいて重要な要素となっている。
しかし、近年の研究では、特に難題における多段階推論の改善の有効性に疑問が呈されている。
この課題に対処するために,質問強化によるシンプルかつ効果的な戦略を提案する。課題の軽減と,より情報的な学習信号の提供を目的として,トレーニング中の部分解を導入する。
我々の方法であるQuestAは、数学推論タスクにおけるRLトレーニングで適用された場合、pass@1だけでなくpass@kも改善する。
これにより、DeepScaleRやOpenMath Nemotronといった強力なオープンソースモデルに対する継続的な改善が可能になり、推論機能をさらに強化できる。
AIME24では67.1%(+5.3%)、AIME25では59.5%(+10.0%)、HMMT25では35.5%(+4.0%)である。
さらに、QuestAはサンプル効率を向上し、RLを介して推論能力を拡張するための実用的で一般化可能な経路を提供するという理論的説明を提供する。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem [53.3188041952701]
一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。
わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。
結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
論文 参考訳(メタデータ) (2025-06-03T18:35:52Z) - Decomposing Elements of Problem Solving: What "Math" Does RL Teach? [22.517954679764244]
私たちは問題解決を、計画、実行、検証という基本的な機能に分解します。
RLを訓練したモデルは、計画スキルが不十分なため、基本的に新しい問題に悩まされ、"カバーウォール"にぶつかっていることを示す。
本研究は, LLM推論の強化におけるRLの役割について考察し, 重要な限界を明らかにするとともに, これらの障壁を克服するための道筋を示唆する。
論文 参考訳(メタデータ) (2025-05-28T18:18:49Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [108.88337262486819]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。