論文の概要: Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?
- arxiv url: http://arxiv.org/abs/2502.19557v1
- Date: Wed, 26 Feb 2025 20:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:20.576451
- Title: Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?
- Title(参考訳): データだけでなく、償還も:より小さな言語モデルはより大きな言語を超越できるか?
- Authors: Yudi Zhang, Lu Wang, Meng Fang, Yali Du, Chenghua Huang, Jun Wang, Qingwei Lin, Mykola Pechenizkiy, Dongmei Zhang, Saravan Rajmohan, Qi Zhang,
- Abstract要約: 大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
- 参考スコア(独自算出の注目度): 58.80794196076336
- License:
- Abstract: Distilling large language models (LLMs) typically involves transferring the teacher model's responses through supervised fine-tuning (SFT). However, this approach neglects the potential to distill both data (output content) and reward signals (quality evaluations). Extracting reliable reward signals directly from teacher models is challenging, as LLMs are optimized for generation rather than evaluation, often resulting in biased or inconsistent assessments. To address this limitation, we propose a novel distillation pipeline that transfers both responses and rewards. Our method generates pseudo-rewards through a self-supervised mechanism that leverages the inherent structure of both teacher and student responses, enabling reward learning without explicit external evaluation. The reward model subsequently guides reinforcement learning (RL), allowing iterative refinement of the student model after an SFT warm-up phase. Experiments on GSM8K and MMLU-PRO demonstrate that our method consistently outperforms traditional SFT-based approaches, enabling student models to surpass the performance of their teachers. This work highlights the potential for scalable, efficient distillation through structured self-supervised reward learning, reducing dependence on external reward supervision.
- Abstract(参考訳): 大型言語モデル(LLM)の蒸留は通常、教師による微調整(SFT)を通じて教師モデルの応答を転送する。
しかし、このアプローチは、データ(出力内容)と報酬信号(品質評価)の両方を蒸留する可能性を無視している。
教師モデルから直接信頼できる報酬信号を抽出することは困難であり、LCMは評価よりも生成に最適化されており、しばしばバイアスや一貫性のない評価をもたらす。
この制限に対処するために,反応と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の応答の固有構造を利用した自己教師機構によって擬似回帰を生成する。
その後、報酬モデルにより強化学習(RL)が導かれ、SFTウォームアップフェーズ後の学生モデルの反復的な洗練が可能となる。
GSM8K と MMLU-PRO の実験により,本手法は従来の SFT ベースの手法より一貫して優れており,学生モデルが教師のパフォーマンスを上回ることが実証された。
この研究は、構造化された自己監督型報酬学習によるスケーラブルで効率的な蒸留の可能性を強調し、外部報酬監督への依存を減らす。
関連論文リスト
- Learning to Reason via Self-Iterative Process Feedback for Small Language Models [5.3831551965806534]
小型言語モデル (SLM) は大規模言語モデル (LLM) よりも効率的で費用効率が良く、カスタマイズできる。
この研究により、SLMは自己満足的なフィードバックから推論を学ぶことができる。
論文 参考訳(メタデータ) (2024-12-11T14:05:04Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。