Fugu-MT 論文翻訳(概要): RM-Distiller: Exploiting Generative LLM for Reward Model Distillation

論文の概要: RM-Distiller: Exploiting Generative LLM for Reward Model Distillation

arxiv url: http://arxiv.org/abs/2601.14032v1
Date: Tue, 20 Jan 2026 14:53:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:23.362056
Title: RM-Distiller: Exploiting Generative LLM for Reward Model Distillation
Title（参考訳）: RM-Distiller: 逆モデル蒸留用ジェネレーションLLMの爆発
Authors: Hongli Zhou, Hui Huang, Wei Liu, Chenglong Wang, Xingyuan Bu, Lvyuan Han, Fuhai Song, Muyun Yang, Wenhao Jiang, Hailong Cao, Tiejun Zhao,
Abstract要約: リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。既存のアプローチは主に教師モデルを単純なバイナリアノテータとして扱い、RM蒸留の豊富な知識と能力を完全に活用することができなかった。教師LLMの多面的能力を体系的に活用するフレームワークであるRM-Distillerを提案する。
参考スコア（独自算出の注目度）: 47.016779894794304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward models (RMs) play a pivotal role in aligning large language models (LLMs) with human preferences. Due to the difficulty of obtaining high-quality human preference annotations, distilling preferences from generative LLMs has emerged as a standard practice. However, existing approaches predominantly treat teacher models as simple binary annotators, failing to fully exploit the rich knowledge and capabilities for RM distillation. To address this, we propose RM-Distiller, a framework designed to systematically exploit the multifaceted capabilities of teacher LLMs: (1) Refinement capability, which synthesizes highly correlated response pairs to create fine-grained and contrastive signals. (2) Scoring capability, which guides the RM in capturing precise preference strength via a margin-aware optimization objective. (3) Generation capability, which incorporates the teacher's generative distribution to regularize the RM to preserve its fundamental linguistic knowledge. Extensive experiments demonstrate that RM-Distiller significantly outperforms traditional distillation methods both on RM benchmarks and reinforcement learning-based alignment, proving that exploiting multifaceted teacher capabilities is critical for effective reward modeling. To the best of our knowledge, this is the first systematic research on RM distillation from generative LLMs.
Abstract（参考訳）: リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。高品質な人為的嗜好アノテーションを得るのが困難であったため、ジェネレーティブLLMからの嗜好の蒸留が標準的慣行として現れてきた。しかし、既存のアプローチは主に教師モデルを単純なバイナリアノテータとして扱い、RM蒸留の豊富な知識と能力を完全に活用することができなかった。そこで本稿では,教師LLMの多面的能力を体系的に活用するフレームワークであるRM-Distillerを提案する。 2) Scoring capabilities, which guides the RM in capture exact preference strength through a margin-aware optimization objective。 (3)基本的言語知識を維持するためにRMを正規化するために教師の生成分布を組み込んだ生成能力。 RM-Distillerは、RMベンチマークと強化学習に基づくアライメントの両方において従来の蒸留法を著しく上回り、多面的な教師機能を活用することが効果的な報酬モデリングに重要であることを示した。我々の知る限りでは、これは生成LDMからのRM蒸留に関する最初の体系的研究である。

関連論文リスト

Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文参考訳（メタデータ） (2026-02-26T00:20:39Z)
RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation [31.28415780479141]
Reinforcement Learning from Teacher-Model Refinement (RLfR)は、外部教師モデル(GPT-4o)からの継続的な高品質フィードバックを活用することで、静的三重項への依存を取り除く新しいフレームワークである。 FLORES-200ベンチマーク(ドイツ語、スペイン語、中国語、韓国語、日本語)では、RLfRはMT-SFTと嗜好ベースラインの両方を一貫して上回っている。
論文参考訳（メタデータ） (2025-07-29T20:35:35Z)
Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは報酬の一般化に繋がる本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T10:58:20Z)
RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-05T06:11:12Z)
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [73.26238057915583]
本稿では,マルチアームバンディット問題として報酬モデル選択を行うLASeRを提案する。 LASeRは反復トレーニングを促進し、3つのデータセットに対してLlama-3-8Bの平均精度を絶対的に向上することを示す。また、RAeRはRMスコアアンサンブルベースラインよりも72.69%のAlpacaEval勝利率を達成していることを示す。
論文参考訳（メタデータ） (2024-10-02T16:46:38Z)
Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文参考訳（メタデータ） (2024-05-01T06:23:54Z)
Hybrid Distillation: Connecting Masked Autoencoders with Contrastive Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文参考訳（メタデータ） (2023-06-28T02:19:35Z)
From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。 PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文参考訳（メタデータ） (2022-12-09T10:21:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。