論文の概要: OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.06188v1
- Date: Thu, 07 May 2026 13:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.806634
- Title: OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models
- Title(参考訳): OPSDはRLVRが生み出すものを圧縮する:Reasoning ModelのためのポストRL圧縮ステージ
- Authors: Jaehoon Kim, Dongha Lee,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)の代替として,オンライン自己蒸留(On-Policy Self-Distillation, OPSD)が最近登場した。
考察可能な数学的推論では、OPSDは補正機構よりも圧縮機構として最も確実に振る舞う。
- 参考スコア(独自算出の注目度): 12.17078443900398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: On-Policy Self-Distillation (OPSD) has recently emerged as an alternative to Reinforcement Learning with Verifiable Rewards (RLVR), promising higher accuracy and shorter responses through token-level credit assignment from a self-teacher conditioned on privileged context. However, this promise does not carry over to thinking-enabled mathematical reasoning, where reported accuracy gains shrink and sometimes turn negative. We hypothesize that hindsight supervision can specify better token-level alternatives in short thinking-disabled outputs, but in long thinking-enabled traces it more readily identifies redundancy than supplies better replacements. To test this, we applied OPSD separately to correct and incorrect rollout groups, so that compression and correction can be observed in isolation. Our results show that in thinking-enabled mathematical reasoning, OPSD behaves most reliably as a compression mechanism rather than a correction mechanism: training only on correct rollouts preserves accuracy while substantially shortening responses, whereas training only on incorrect rollouts damages accuracy. In light of these findings, we propose a revised post-training pipeline for thinking-enabled mathematical reasoning: SFT then RLVR then OPSD.
- Abstract(参考訳): On-Policy Self-Distillation (OPSD)は、最近RLVR(Reinforcement Learning with Verifiable Rewards)の代替として登場した。
しかし、この約束は思考可能な数学的推論には受け継がれず、報告された精度は減少し、時には負になる。
我々は、近視監督が短い思考障害出力においてより良いトークンレベルの代替品を特定できると仮定するが、長い思考可能なトレースでは、より良い代替品を提供するよりも、容易に冗長性を識別できる。
これをテストするために, OPSDを別々に適用し, 正しいロールアウト群と不正なロールアウト群を分離して, 圧縮と修正を観察した。
提案手法は, 正しいロールアウトのみのトレーニングは精度を保ちつつ, 反応を大幅に短縮する一方, 間違ったロールアウトのみのトレーニングは精度を低下させる。
これらの知見を踏まえて,SFT,RLVR,OPSDといった思考可能な数学的推論のための学習後パイプラインを提案する。
関連論文リスト
- What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning [25.562101968892833]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における長い連鎖推論を導く
既存のアプローチでは、トークンレベルのエントロピーやシーケンスレベルの長さ制御を通じてRLVRを改善するが、推論の進捗を意味的に基礎づけたステップレベルの尺度は欠如している。
本研究では,潜在的利得を増幅し,潜在的利得をペナルティ化し,飽和後のペナルティを適用してタイムリーな終了を促す,詳細な信用割当手法であるステップ電位アドバンテージ推定(SPAE)を提案する。
論文 参考訳(メタデータ) (2026-01-07T11:36:01Z) - Sandwich Reasoning: An Answer-Reasoning-Answer Approach for Low-Latency Query Correction [14.620900910188382]
Chain-of-Thought (CoT)推論は精度を向上するが、リアルタイムクエリの修正には不当な遅延が発生する。
Sandwich Reasoning (SandwichR) という手法を提案する。
我々は,SandwichRが標準CoTに匹敵するSOTA精度を実現し,40~70%の遅延低減を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-07T07:52:30Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。