論文の概要: Self-Hinting Language Models Enhance Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.03143v1
- Date: Tue, 03 Feb 2026 05:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.273021
- Title: Self-Hinting Language Models Enhance Reinforcement Learning
- Title(参考訳): 自己表現型言語モデルによる強化学習
- Authors: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian,
- Abstract要約: 我々は、権限付き監督(SAGE)を備えた自己隠れ型GRPOを提案する。
SAGEはトレーニング中に特権付きヒントを注入し、同じ端末検証者報酬の下でロールアウト分布を再生成する。
3つのLSMを持つ6つのベンチマーク実験の結果、SAGEはGRPOを一貫して上回っている。
- 参考スコア(独自算出の注目度): 37.311361929798714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt $x$, the model samples a compact hint $h$ (e.g., a plan or decomposition) and then generates a solution $τ$ conditioned on $(x,h)$. Crucially, the task reward $R(x,τ)$ is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set $h=\varnothing$ and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) は、大規模言語モデルを検証対象と整合させる実践的なレシピとして最近登場した。
しかしながら、低い端末報酬の下では、GRPOはグループ内のロールアウトがしばしば同じ報酬を受け取り、相対的なアドバンテージが崩壊し、更新が消滅するので、しばしば停止する。
我々は,学習中に特権的ヒントを注入し,同一端末検証報酬の下でロールアウト分布を再構成する,権限付き監視付き自己隠れ型GRPO(SAGE)を提案する。
各プロンプト$x$に対して、モデルはコンパクトなヒント$h$(例えば、プランや分解)をサンプリングし、$(x,h)$で条件付きソリューション$τ$を生成する。
重要なことに、タスク報酬の$R(x,τ)$は変化せず、ヒントは有限サンプリングの下でグループ内の結果の多様性を増大させるだけであり、GRPOの利点はスパース報酬の下で崩壊するのを防ぐ。
テスト時には、$h=\varnothing$を設定し、特権情報なしでno-hintポリシーをデプロイしました。
さらに、多様な自己隠蔽をサンプリングすることは、学習者のボトルネックを初期方針や強い外部モデルからの固定ヒントよりも効果的に追跡する適応的なカリキュラムとして機能する。
3つの LLM を用いた6つのベンチマーク実験により、SAGE は GRPO を一貫して上回り、Llama-3.2-3B-Instruct では平均+2.0、Qwen2.5-7B-Instruct では +1.2、Qwen3-4B-Instruct では+1.3 である。
コードはhttps://github.com/BaohaoLiao/SAGEで公開されている。
関連論文リスト
- RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents [40.88916135445381]
報酬は希少であり、探索は高価であるため、大規模言語モデルではマルチターンのツールコールは困難である。
一般的なレシピであるSFTとGRPOは、グループ内報酬の変動が低いときに停止する。
本稿では、離散的な報酬トークンを用いて、探索を制御可能なステアリング問題として扱うRC-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-03T02:47:32Z) - SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences [22.199479724764725]
トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$lambda$を導入します。
lambda$-GRPOはバニラGRPOとDAPOよりも一貫した改善を実現しています。
これらの利益は、トレーニングデータの変更や追加の計算コストなしで得られます。
論文 参考訳(メタデータ) (2025-10-08T10:39:07Z) - GRPO-$λ$: Credit Assignment improves LLM Reasoning [35.452488047246646]
GRPO-$lambda$は、複雑な推論タスクのためのLLMのRL微調整におけるクレジット割り当てを強化するGRPOの新たな拡張である。
GRPO-$lambda$とGRPOを比較し、1.5Bから7Bパラメータのモデルを4ドルの異なる数学推論データセットでトレーニングする。
GRPO-$lambda$では、AIME24、Math500、OlympiadMath、MinervaMath、AMCの平均的なパフォーマンスはGRPOよりも3ドル以上改善され、7Bモデルでは4.5ドルポイント改善されている。
論文 参考訳(メタデータ) (2025-09-30T19:11:10Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。