論文の概要: Preference Distillation via Value based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.16965v1
- Date: Sun, 21 Sep 2025 07:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.057312
- Title: Preference Distillation via Value based Reinforcement Learning
- Title(参考訳): 価値に基づく強化学習による嗜好蒸留
- Authors: Minchan Kwon, Junwon Ko, Kangil Kim, Junmo Kim,
- Abstract要約: 我々は,教師モデルの値関数から補助的な報酬を付与し,ソフトガイドを提供する,textitTeacher Value-based Knowledge Distillation (TVKD)を提案する。
TVKDは標準のDPOトレーニングフレームワークに統合することができ、追加のロールアウトを必要としない。
実験の結果,TVKDは様々なベンチマークやモデルサイズで連続的に性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 16.165599808093408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is a powerful paradigm to align language models with human preferences using pairwise comparisons. However, its binary win-or-loss supervision often proves insufficient for training small models with limited capacity. Prior works attempt to distill information from large teacher models using behavior cloning or KL divergence. These methods often focus on mimicking current behavior and overlook distilling reward modeling. To address this issue, we propose \textit{Teacher Value-based Knowledge Distillation} (TVKD), which introduces an auxiliary reward from the value function of the teacher model to provide a soft guide. This auxiliary reward is formulated to satisfy potential-based reward shaping, ensuring that the global reward structure and optimal policy of DPO are preserved. TVKD can be integrated into the standard DPO training framework and does not require additional rollouts. Our experimental results show that TVKD consistently improves performance across various benchmarks and model sizes.
- Abstract(参考訳): 直接選好最適化(DPO)は、言語モデルと人間の選好をペアで比較する強力なパラダイムである。
しかし、そのバイナリ・ウィン・オー・ロスの監督は、限られた能力を持つ小型モデルの訓練には不十分であることがしばしば証明される。
従来の研究は、行動クローニングやKLの発散を利用して、大きな教師モデルから情報を抽出しようとしていた。
これらの手法は、しばしば現在の行動の模倣と、蒸留報酬モデリングの見落としに焦点をあてる。
この問題に対処するために,教師モデルの値関数から補助的な報酬を導入し,ソフトガイドを提供する「textit{Teacher Value-based Knowledge Distillation}」(TVKD)を提案する。
この補助報酬は、ポテンシャルに基づく報酬形成を満たすために定式化され、大域的な報酬構造とDPOの最適政策が維持される。
TVKDは標準のDPOトレーニングフレームワークに統合することができ、追加のロールアウトを必要としない。
実験の結果,TVKDは様々なベンチマークやモデルサイズで連続的に性能を向上することがわかった。
関連論文リスト
- GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。
本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:13Z) - daDPO: Distribution-Aware DPO for Distilling Conversational Abilities [48.745922491268004]
本稿では, 優先最適化と分散蒸留を統一したdaDPO (Distribution-Aware DPO) を提案する。
そこで,daDPOは,刈り取られたモデルの性能回復と,より小型のLCMモデルの改良において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T03:39:29Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。