論文の概要: StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to Reason
- arxiv url: http://arxiv.org/abs/2507.02841v1
- Date: Thu, 03 Jul 2025 17:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.785922
- Title: StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to Reason
- Title(参考訳): StepHint: マルチレベルなステップワイドは強化学習を推論に隠蔽する
- Authors: Kaiyi Zhang, Ang Lv, Jinpeng Li, Yongbo Wang, Feng Wang, Haoyuan Hu, Rui Yan,
- Abstract要約: 検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させるための有望なアプローチである。
我々は,モデルがより効率的に解空間を探索するのを助けるために,多段階のヒントを利用する新しいRLVRアルゴリズムであるStepHintを提案する。
ヒントを提供することで、StepHintはニアミス報酬問題を緩和し、トレーニング効率を向上させる。
- 参考スコア(独自算出の注目度): 29.18375308269387
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a promising approach for improving the complex reasoning abilities of large language models (LLMs). However, current RLVR methods face two significant challenges: the near-miss reward problem, where a small mistake can invalidate an otherwise correct reasoning process, greatly hindering training efficiency; and exploration stagnation, where models tend to focus on solutions within their ``comfort zone,'' lacking the motivation to explore potentially more effective alternatives. To address these challenges, we propose StepHint, a novel RLVR algorithm that utilizes multi-level stepwise hints to help models explore the solution space more effectively. StepHint generates valid reasoning chains from stronger models and partitions these chains into reasoning steps using our proposed adaptive partitioning method. The initial few steps are used as hints, and simultaneously, multiple-level hints (each comprising a different number of steps) are provided to the model. This approach directs the model's exploration toward a promising solution subspace while preserving its flexibility for independent exploration. By providing hints, StepHint mitigates the near-miss reward problem, thereby improving training efficiency. Additionally, the external reasoning pathways help the model develop better reasoning abilities, enabling it to move beyond its ``comfort zone'' and mitigate exploration stagnation. StepHint outperforms competitive RLVR enhancement methods across six mathematical benchmarks, while also demonstrating superior generalization and excelling over baselines on out-of-domain benchmarks.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の複雑な推論能力を改善するための有望なアプローチである。
しかし、現在のRLVR手法では、2つの重大な課題に直面している: ミスに近い報酬問題、小さなミスが他の方法で正しい推論プロセスを無効にし、トレーニング効率を大幅に阻害する、探索の停滞、モデルが「快適ゾーン」内のソリューションにフォーカスする傾向にある探索、そして、潜在的に効果的な代替手段を探るモチベーションが欠如している。
これらの課題に対処するために、モデルがより効率的に解空間を探索するのに役立つ複数の段階的なヒントを利用する、新しいRLVRアルゴリズムであるStepHintを提案する。
StepHintは、より強力なモデルから有効な推論チェーンを生成し、提案手法を用いてこれらのチェーンを推論ステップに分割する。
最初の数ステップはヒントとして使用され、同時に複数のレベルヒント(それぞれ異なるステップ数)がモデルに提供される。
このアプローチは、独立した探索のための柔軟性を維持しながら、有望なソリューションサブスペースに向けたモデルの探索を誘導する。
ヒントを提供することで、StepHintはニアミス報酬問題を緩和し、トレーニング効率を向上させる。
さらに、外部の推論経路はモデルがより良い推論能力を身につけるのに役立つため、"快適ゾーン"を越えて探索の停滞を緩和することができる。
StepHintは6つの数学ベンチマークで競合するRLVRエンハンスメント手法よりも優れており、またドメイン外ベンチマークのベースラインよりも優れた一般化と優れた性能を示している。
関連論文リスト
- LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [11.15613673478208]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。