論文の概要: Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.24850v1
- Date: Fri, 30 May 2025 17:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.112187
- Title: Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
- Title(参考訳): 負信号のハーネス化:LLM推論のための教師データからの強化蒸留
- Authors: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi,
- Abstract要約: 本稿では,2段階のフレームワークであるReinforcement Distillation (REDI)を提案する。
Supervised Fine-Tuning (SFT) による正のトレースから学ぶステージ1
ステージ2は、提案したREDI目標を通じて、正と負の両方のトレースを用いてモデルをさらに洗練する。
DPO/SimPOを併用したベースラインリジェクションサンプリングSFTやSFTよりもREDIが優れていることを示す実験的検討を行った。
- 参考スコア(独自算出の注目度): 21.70706473875226
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in model distillation demonstrate that data from advanced reasoning models (e.g., DeepSeek-R1, OpenAI's o1) can effectively transfer complex reasoning abilities to smaller, efficient student models. However, standard practices employ rejection sampling, discarding incorrect reasoning examples -- valuable, yet often underutilized data. This paper addresses the critical question: How can both positive and negative distilled reasoning traces be effectively leveraged to maximize LLM reasoning performance in an offline setting? To this end, We propose Reinforcement Distillation (REDI), a two-stage framework. Stage 1 learns from positive traces via Supervised Fine-Tuning (SFT). Stage 2 further refines the model using both positive and negative traces through our proposed REDI objective. This novel objective is a simple, reference-free loss function that outperforms established methods like DPO and SimPO in this distillation context. Our empirical evaluations demonstrate REDI's superiority over baseline Rejection Sampling SFT or SFT combined with DPO/SimPO on mathematical reasoning tasks. Notably, the Qwen-REDI-1.5B model, post-trained on just 131k positive and negative examples from the open Open-R1 dataset, achieves an 83.1% score on MATH-500 (pass@1). Its performance matches or surpasses that of DeepSeek-R1-Distill-Qwen-1.5B (a model post-trained on 800k proprietary data) across various mathematical reasoning benchmarks, establishing a new state-of-the-art for 1.5B models post-trained offline with openly available data.
- Abstract(参考訳): モデル蒸留の最近の進歩は、先進的推論モデル(DeepSeek-R1, OpenAI's o1)のデータは、複雑な推論能力をより小さく効率的な学生モデルに効果的に転送できることを示している。
しかし、標準的なプラクティスでは、リジェクションサンプリングを採用し、誤った推論の例を捨てる -- 価値はあるが、しばしば利用されていないデータである。
オフライン環境でのLCM推論性能を最大化するために、正および負の蒸留推論トレースを効果的に活用するにはどうすればよいのか?
この目的のために,2段階のフレームワークであるReinforcement Distillation (REDI)を提案する。
ステージ1は、Supervised Fine-Tuning (SFT)を介して正のトレースから学習する。
ステージ2は、提案したREDI目標を通じて、正と負の両方のトレースを用いてモデルをさらに洗練する。
この新たな目的は、この蒸留コンテキストにおけるDPOやSimPOのような確立された手法よりも優れた、単純で参照不要な損失関数である。
DPO/SimPOを併用したベースラインリジェクションサンプリングSFTやSFTよりもREDIが優れていることを示す実験的検討を行った。
特に、Qwen-REDI-1.5BモデルはオープンなOpen-R1データセットからわずか131kの正と負のサンプルで後にトレーニングされ、MATH-500で83.1%のスコアを得た(pass@1)。
その性能は、様々な数学的推論ベンチマークでDeepSeek-R1-Distill-Qwen-1.5B(800kのプロプライエタリなデータでポストトレーニングされたモデル)と一致し、オフラインで公開データでトレーニングされた1.5Bモデルの新たな最先端技術を確立した。
関連論文リスト
- SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning [6.44608398856033]
Rec-R1は大規模言語モデル(LLM)をクローズドループ最適化を通じてレコメンデーションシステムでブリッジする。
プロンプトや教師付き微調整(SFT)とは異なり、Rec-R1は固定ブラックボックスレコメンデーションモデルからのフィードバックを使って直接LLM生成を最適化する。
論文 参考訳(メタデータ) (2025-03-31T16:36:00Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。