論文の概要: Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
- arxiv url: http://arxiv.org/abs/2509.06923v1
- Date: Mon, 08 Sep 2025 17:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.291451
- Title: Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
- Title(参考訳): スウィートスポットに滞在する:能力適応型ヒントしゃがみによる応答型推論進化
- Authors: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
- 参考スコア(独自算出の注目度): 59.60915947702282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in enhancing the reasoning capabilities of large language models (LLMs). However, existing RLVR methods often suffer from exploration inefficiency due to mismatches between the training data's difficulty and the model's capability. LLMs fail to discover viable reasoning paths when problems are overly difficult, while learning little new capability when problems are too simple. In this work, we formalize the impact of problem difficulty by quantifying the relationship between loss descent speed and rollout accuracy. Building on this analysis, we propose SEELE, a novel supervision-aided RLVR framework that dynamically adjusts problem difficulty to stay within the high-efficiency region. SEELE augments each training sample by appending a hint (part of a full solution) after the original problem. Unlike previous hint-based approaches, SEELE deliberately and adaptively adjusts the hint length for each problem to achieve an optimal difficulty. To determine the optimal hint length, SEELE employs a multi-round rollout sampling strategy. In each round, it fits an item response theory model to the accuracy-hint pairs collected in preceding rounds to predict the required hint length for the next round. This instance-level, real-time difficulty adjustment aligns problem difficulty with the evolving model capability, thereby improving exploration efficiency. Experimental results show that SEELE outperforms Group Relative Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5 points, respectively, and surpasses the best previous supervision-aided approach by +3.6 points on average across six math reasoning benchmarks.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)の推論能力の向上に成功している。
しかし、既存のRLVR法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
LLMは、問題が過度に難しい場合、実行可能な推論パスを見つけることができず、問題が単純すぎる場合には、ほとんど新しい能力を学ぶことができません。
本研究では,損失降下速度とロールアウト精度の関係を定量化することにより,問題問題の影響を定式化する。
この分析に基づいて,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
SEELEは、オリジナルの問題の後、ヒント(完全なソリューションの一部)を付加することで、トレーニングサンプルを拡大する。
従来のヒントベースのアプローチとは異なり、SEELEは各問題に対するヒント長を意図的に適応的に調整し、最適な難易度を達成する。
最適ヒント長を決定するため、SEELEは複数ラウンドのロールアウトサンプリング戦略を採用している。
各ラウンドにおいて、アイテム応答理論モデルと前ラウンドで収集された精度ヒントペアに適合し、次のラウンドに必要なヒント長を予測する。
このインスタンスレベルのリアルタイム難易度調整は、問題の難易度と進化するモデル能力とを一致させ、探索効率を向上させる。
実験の結果、SEELEはグループ相対政策最適化(GRPO)とスーパーバイザードファインチューニング(SFT)をそれぞれ+11.8と+10.5で上回り、6つの算数推論ベンチマークで平均+3.6ポイント上回っていることがわかった。
関連論文リスト
- Know When to Explore: Difficulty-Aware Certainty as a Guide for LLM Reinforcement Learning [37.20632079882874]
DACE(Difficulty Aware Certainty guided Exploration)を紹介する。
政策の成功率に基づいて、探索的エクスプロイトのトレードオフをバランスさせる。
挑戦的な数学的推論ベンチマーク(AIME, MATH)の実験は、DACEが強いベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-29T08:57:54Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective [27.94738910330893]
強化学習は、大規模言語モデルの推論能力を高める可能性を示す。
既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。
本稿では,問題の正確かつ安定した推定を可能にするtextbfC$ompetence-$textbfD$ifficultyを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:15:26Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - Generalization Guarantees for Neural Architecture Search with
Train-Validation Split [48.265305046655996]
本稿では,列車検証分割の統計的側面について検討する。
リスクや高度勾配などの検証損失の洗練された特性は、真のテスト損失の指標であることを示す。
また、NAS、マルチカーネル学習、低ランク行列学習の厳密な接続も強調する。
論文 参考訳(メタデータ) (2021-04-29T06:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。