論文の概要: RM-Distiller: Exploiting Generative LLM for Reward Model Distillation
- arxiv url: http://arxiv.org/abs/2601.14032v1
- Date: Tue, 20 Jan 2026 14:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.362056
- Title: RM-Distiller: Exploiting Generative LLM for Reward Model Distillation
- Title(参考訳): RM-Distiller: 逆モデル蒸留用ジェネレーションLLMの爆発
- Authors: Hongli Zhou, Hui Huang, Wei Liu, Chenglong Wang, Xingyuan Bu, Lvyuan Han, Fuhai Song, Muyun Yang, Wenhao Jiang, Hailong Cao, Tiejun Zhao,
- Abstract要約: リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
既存のアプローチは主に教師モデルを単純なバイナリアノテータとして扱い、RM蒸留の豊富な知識と能力を完全に活用することができなかった。
教師LLMの多面的能力を体系的に活用するフレームワークであるRM-Distillerを提案する。
- 参考スコア(独自算出の注目度): 47.016779894794304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. Due to the difficulty of obtaining high-quality human preference annotations, distilling preferences from generative LLMs has emerged as a standard practice. However, existing approaches predominantly treat teacher models as simple binary annotators, failing to fully exploit the rich knowledge and capabilities for RM distillation. To address this, we propose RM-Distiller, a framework designed to systematically exploit the multifaceted capabilities of teacher LLMs: (1) Refinement capability, which synthesizes highly correlated response pairs to create fine-grained and contrastive signals. (2) Scoring capability, which guides the RM in capturing precise preference strength via a margin-aware optimization objective. (3) Generation capability, which incorporates the teacher's generative distribution to regularize the RM to preserve its fundamental linguistic knowledge. Extensive experiments demonstrate that RM-Distiller significantly outperforms traditional distillation methods both on RM benchmarks and reinforcement learning-based alignment, proving that exploiting multifaceted teacher capabilities is critical for effective reward modeling. To the best of our knowledge, this is the first systematic research on RM distillation from generative LLMs.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
高品質な人為的嗜好アノテーションを得るのが困難であったため、ジェネレーティブLLMからの嗜好の蒸留が標準的慣行として現れてきた。
しかし、既存のアプローチは主に教師モデルを単純なバイナリアノテータとして扱い、RM蒸留の豊富な知識と能力を完全に活用することができなかった。
そこで本稿では,教師LLMの多面的能力を体系的に活用するフレームワークであるRM-Distillerを提案する。
2) Scoring capabilities, which guides the RM in capture exact preference strength through a margin-aware optimization objective。
(3)基本的言語知識を維持するためにRMを正規化するために教師の生成分布を組み込んだ生成能力。
RM-Distillerは、RMベンチマークと強化学習に基づくアライメントの両方において従来の蒸留法を著しく上回り、多面的な教師機能を活用することが効果的な報酬モデリングに重要であることを示した。
我々の知る限りでは、これは生成LDMからのRM蒸留に関する最初の体系的研究である。
関連論文リスト
- RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation [31.28415780479141]
Reinforcement Learning from Teacher-Model Refinement (RLfR)は、外部教師モデル(GPT-4o)からの継続的な高品質フィードバックを活用することで、静的三重項への依存を取り除く新しいフレームワークである。
FLORES-200ベンチマーク(ドイツ語、スペイン語、中国語、韓国語、日本語)では、RLfRはMT-SFTと嗜好ベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-29T20:35:35Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [73.26238057915583]
本稿では,マルチアームバンディット問題として報酬モデル選択を行うLASeRを提案する。
LASeRは反復トレーニングを促進し、3つのデータセットに対してLlama-3-8Bの平均精度を絶対的に向上することを示す。
また、RAeRはRMスコアアンサンブルベースラインよりも72.69%のAlpacaEval勝利率を達成していることを示す。
論文 参考訳(メタデータ) (2024-10-02T16:46:38Z) - Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。
しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。
本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文 参考訳(メタデータ) (2024-05-01T06:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。