論文の概要: Self-Distilled RLVR
- arxiv url: http://arxiv.org/abs/2604.03128v2
- Date: Wed, 08 Apr 2026 08:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:04.989022
- Title: Self-Distilled RLVR
- Title(参考訳): 自己蒸留RLVR
- Authors: Chenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan,
- Abstract要約: 特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
- 参考スコア(独自算出の注目度): 57.37526213765131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose \textbf{RLSD} (\textbf{RL}VR with \textbf{S}elf-\textbf{D}istillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.
- Abstract(参考訳): オンライン蒸留(OPD)は、LLMコミュニティで人気のある訓練パラダイムとなっている。
このパラダイムは、教師としてより大きなモデルを選択し、各サンプル軌跡に対して、検証可能な報奨(RLVR)による強化学習とは対照的に、環境の検証可能な結果からスパース信号のみを得る。
近年,同モデルが教師と学生の両方に役立ち,教師は自己進化を可能にするための参照回答などの特権情報を付加的に受け取っている,政治自己蒸留(OPSD)について検討している。
本稿では、特権教師からのみ派生した学習信号が、深刻な情報漏洩と不安定な長期学習をもたらすことを示す。
そこで, 自己蒸留における最適ニッチを同定し, \textbf{RLSD}(\textbf{RL}VR with \textbf{S}elf-\textbf{D}istillation)を提案する。
具体的には, 環境フィードバック(例えば, 応答正当性)から信頼性の高い更新方向を導出するためにRLVRを使用しながら, 精密な更新規模を決定するためのトークンレベルのポリシー差を求めるために, 自己蒸留を活用している。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
関連論文リスト
- Dual Consensus: Escaping from Spurious Majority in Unsupervised RLVR via Two-Stage Vote Mechanism [12.006669100411466]
現在のRLVRアプローチは、正確な擬似ラベル推定に大きく依存している。
2段階のコンセンサス機構を用いて,より信頼性の高い学習信号を生成するDual Consensus Reinforcement Learningを提案する。
我々は、DCRLが多数決でPass@1を一貫して改善し、より安定したトレーニングダイナミクスが得られることを示した。
論文 参考訳(メタデータ) (2026-03-17T07:57:23Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [26.079123341965687]
低ランク学習を研究し,LoRAのランクや配置が学習や忘れにどのように影響するかを分析した。
上位のLoRAはタスク学習(塑性)を改善するが、下位のLoRAは安定性を高めるが適応を制限する。
そこで我々は,適応的に最適化されたLoRAアダプタを用いてPTMを継続的に更新する連続動的ランク選択LoRA(CoDyRA)を提案する。
論文 参考訳(メタデータ) (2024-12-01T23:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。