論文の概要: Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
- arxiv url: http://arxiv.org/abs/2605.10781v1
- Date: Mon, 11 May 2026 16:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.971983
- Title: Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
- Title(参考訳): 反抗的な学生:RLVRを自給自足で探究する教師信号の反転
- Authors: Jeonghye Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang,
- Abstract要約: 本稿では,本来の自己蒸留信号の逆読法を提案する。
教師が予測しなかった道に沿って学生が成功すると、これらのトークンはその自己駆動的推論を反映する。
我々はこれを、RLVRにおける新しい形の探索であると解釈し、一様の多様性ではなく、学生自身の成功に根ざした貴重な探検である。
- 参考スコア(独自算出の注目度): 24.635100877140747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-distillation has emerged as a powerful framework for post-training LLMs, where a teacher conditioned on extra information guides a student without it, both from the same model. While this guidance is useful when the student has failed, on successful rollouts, the same mechanism instead overwrites the student's choices and suppresses it's own reasoning. Therefore, we propose reading the original self-distillation signal in reverse: when the student succeeds along a path the teacher would not have predicted, these tokens reflect its self-driven reasoning. Building on this, we propose RLRT (RLVR with Reversed Teacher), which augments GRPO by reinforcing these tokens on correct rollouts. We interpret this as a new form of exploration in RLVR: not uniform diversity, but valuable exploration grounded in the student's own success. Across base, instruction-tuned, and thinking-tuned Qwen3 checkpoints, RLRT substantially outperforms self-distillation and exploration-based baselines, establishing information asymmetry as a new, principled design axis for RLVR.
- Abstract(参考訳): 自己蒸留はLLMのポストトレーニングの強力なフレームワークとして現れており、教師が余分な情報で条件づけすることで、同じモデルから学生をガイドする。
このガイダンスは、学生が失敗したときに役立つが、ロールアウトが成功すると、同じメカニズムが生徒の選択を上書きし、それ自身の推論を抑圧する。
そこで,本研究では,教師が予測しなかったパスに沿って学生が成功すると,これらのトークンは自己駆動的推論を反映する,オリジナルの自己蒸留信号を読むことを提案する。
そこで我々はRLRT(RLVR with Reversed Teacher)を提案する。
我々はこれを、RLVRにおける新しい形の探索であると解釈し、一様の多様性ではなく、学生自身の成功に根ざした貴重な探検である。
RLRTは、ベース、命令調整、思考調整されたQwen3チェックポイントを越えて、自己蒸留と探索ベースのベースラインを大幅に上回り、情報非対称性をRLVRの新しい原則設計軸として確立する。
関連論文リスト
- OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models [12.17078443900398]
RLVR(Reinforcement Learning with Verifiable Rewards)の代替として,オンライン自己蒸留(On-Policy Self-Distillation, OPSD)が最近登場した。
考察可能な数学的推論では、OPSDは補正機構よりも圧縮機構として最も確実に振る舞う。
論文 参考訳(メタデータ) (2026-05-07T13:04:34Z) - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。
GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。
GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文 参考訳(メタデータ) (2025-05-22T02:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。