論文の概要: Learning to Hint for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.00698v1
- Date: Wed, 01 Apr 2026 09:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.932634
- Title: Learning to Hint for Reinforcement Learning
- Title(参考訳): 強化学習のためのヒントの学習
- Authors: Yu Xia, Canwen Xu, Zhewei Yao, Julian McAuley, Yuxiong He,
- Abstract要約: グループ相対政策最適化(GRPO)は、検証可能な報酬を伴う強化学習に広く用いられている。
GRPOは、グループ内のすべてのロールアウトが同じ報酬を受けると、しばしば有利な崩壊に苦しむ。
Hint Learning for Reinforcement Learning (HiLL)を提案する。
- 参考スコア(独自算出の注目度): 51.46328710610512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) is widely used for reinforcement learning with verifiable rewards, but it often suffers from advantage collapse: when all rollouts in a group receive the same reward, the group yields zero relative advantage and thus no learning signal. For example, if a question is too hard for the reasoner, all sampled rollouts can be incorrect and receive zero reward. Recent work addresses this issue by adding hints or auxiliary scaffolds to such hard questions so that the reasoner produces mixed outcomes and recovers a non-zero update. However, existing hints are usually fixed rather than adapted to the current reasoner, and a hint that creates learning signal under the hinted input does not necessarily improve the no-hint policy used at test time. To this end, we propose Hint Learning for Reinforcement Learning (HiLL), a framework that jointly trains a hinter policy and a reasoner policy during RL. For each hard question, the hinter generates hints online conditioned on the current reasoner's incorrect rollout, allowing hint generation to adapt to the reasoner's evolving errors. We further introduce hint reliance, which measures how strongly correct hinted trajectories depend on the hint. We derive a transferability result showing that lower hint reliance implies stronger transfer from hinted success to no-hint success, and we use this result to define a transfer-weighted reward for training the hinter. Therefore, HiLL favors hints that not only recover informative GRPO groups, but also produce signals that are more likely to improve the original no-hint policy. Experiments across multiple benchmarks show that HiLL consistently outperforms GRPO and prior hint-based baselines, demonstrating the value of adaptive and transfer-aware hint learning for RL. The code is available at https://github.com/Andree-9/HiLL.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、検証可能な報酬を伴う強化学習に広く用いられているが、しばしば利点の崩壊に悩まされる。
例えば、ある質問が理性者には難しすぎる場合、すべてのサンプルロールアウトは誤りであり、報酬はゼロである。
最近の研究は、このような難解な質問にヒントや補助的な足場を加えることでこの問題に対処し、推論者が混合結果を生成し、ゼロでない更新を回復する。
しかし、既存のヒントは通常、現在の推論に適応するのではなく固定されており、ヒント入力の下で学習信号を生成するヒントは、テスト時に使われるノハトポリシーを必ずしも改善しない。
そこで本研究では,RL中にヒントと推論ポリシーを共同で訓練するフレームワークであるHint Learning for Reinforcement Learning (HiLL)を提案する。
それぞれの難しい質問に対して、ヒントは現在の推論者の誤ったロールアウトでオンライン条件付きヒントを生成し、ヒント生成は推論者の進化するエラーに適応する。
さらに、ヒントに依存した軌道の正確さを測るヒント依存を導入する。
提案手法は,低いヒント信頼度が示唆された成功から隠れない成功への強い伝達を意味することを示す伝達可能性の結果を導出し,この結果を用いて,ヒントを訓練するための伝達重み付き報酬を定義する。
したがって、HiLLは情報的なGRPOグループを回復するだけでなく、元のno-hintポリシーを改善する可能性が高いシグナルを生成するというヒントを好んでいる。
複数のベンチマークで実験したところ、HiLLはGRPOと従来のヒントベースのベースラインを一貫して上回り、RLの適応型および移動型ヒント学習の価値を示している。
コードはhttps://github.com/Andree-9/HiLLで公開されている。
関連論文リスト
- From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting [24.822152032771736]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルを改善するための標準的なレシピとなっている。
負の集団は、余分な監督なしに活用できることが示される。
論文 参考訳(メタデータ) (2025-10-09T18:01:44Z) - Nudging the Boundaries of LLM Reasoning [77.26972440427285]
現在のオンライン強化学習アルゴリズムは、モデルに「解決不可能」な問題から学べない。
自己生成ヒントを用いてLLM推論の上界を推し進める「看護」手法であるNuRLを提案する。
NuRLは、テスト時間スケーリングを補完しながら、6つのベンチマークと3つのモデルで一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T02:01:40Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。