Fugu-MT 論文翻訳(概要): Self-Hinting Language Models Enhance Reinforcement Learning

論文の概要: Self-Hinting Language Models Enhance Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.03143v1
Date: Tue, 03 Feb 2026 05:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-04 18:37:15.273021
Title: Self-Hinting Language Models Enhance Reinforcement Learning
Title（参考訳）: 自己表現型言語モデルによる強化学習
Authors: Baohao Liao, Hanze Dong, Xinxing Xu, Christof Monz, Jiang Bian,
Abstract要約: 我々は、権限付き監督(SAGE)を備えた自己隠れ型GRPOを提案する。 SAGEはトレーニング中に特権付きヒントを注入し、同じ端末検証者報酬の下でロールアウト分布を再生成する。 3つのLSMを持つ6つのベンチマーク実験の結果、SAGEはGRPOを一貫して上回っている。
参考スコア（独自算出の注目度）: 37.311361929798714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt $x$, the model samples a compact hint $h$ (e.g., a plan or decomposition) and then generates a solution $τ$ conditioned on $(x,h)$. Crucially, the task reward $R(x,τ)$ is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set $h=\varnothing$ and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
Abstract（参考訳）: Group Relative Policy Optimization (GRPO) は、大規模言語モデルを検証対象と整合させる実践的なレシピとして最近登場した。しかしながら、低い端末報酬の下では、GRPOはグループ内のロールアウトがしばしば同じ報酬を受け取り、相対的なアドバンテージが崩壊し、更新が消滅するので、しばしば停止する。我々は,学習中に特権的ヒントを注入し,同一端末検証報酬の下でロールアウト分布を再構成する,権限付き監視付き自己隠れ型GRPO(SAGE)を提案する。各プロンプト$x$に対して、モデルはコンパクトなヒント$h$(例えば、プランや分解)をサンプリングし、$(x,h)$で条件付きソリューション$τ$を生成する。重要なことに、タスク報酬の$R(x,τ)$は変化せず、ヒントは有限サンプリングの下でグループ内の結果の多様性を増大させるだけであり、GRPOの利点はスパース報酬の下で崩壊するのを防ぐ。テスト時には、$h=\varnothing$を設定し、特権情報なしでno-hintポリシーをデプロイしました。さらに、多様な自己隠蔽をサンプリングすることは、学習者のボトルネックを初期方針や強い外部モデルからの固定ヒントよりも効果的に追跡する適応的なカリキュラムとして機能する。 3つの LLM を用いた6つのベンチマーク実験により、SAGE は GRPO を一貫して上回り、Llama-3.2-3B-Instruct では平均+2.0、Qwen2.5-7B-Instruct では +1.2、Qwen3-4B-Instruct では+1.3 である。コードはhttps://github.com/BaohaoLiao/SAGEで公開されている。

論文の概要: Self-Hinting Language Models Enhance Reinforcement Learning

関連論文リスト