論文の概要: Online Knowledge Distillation with Reward Guidance
- arxiv url: http://arxiv.org/abs/2505.18952v1
- Date: Sun, 25 May 2025 02:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.776043
- Title: Online Knowledge Distillation with Reward Guidance
- Title(参考訳): Reward Guidanceを用いたオンライン知識蒸留
- Authors: Chen Jia,
- Abstract要約: 本研究は,大規模言語モデル(LLM)に対する知識蒸留(KD)を優先最適化により研究する。
本稿では,学生と教師の政策間のパフォーマンスギャップを最小限に抑えるために,政策と報酬モデル(RM)間のmin-max最適化問題を定式化した,シーケンシャルKDのための報酬誘導型模倣学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.9160947065896803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies knowledge distillation (KD) for large language models (LLMs) through preference optimization. We propose a reward-guided imitation learning framework for sequential KD, formulating a min-max optimization problem between the policy and reward model (RM) to minimize the performance gap between the student and teacher policies. Specifically, the reward optimization is constrained to achieve near-optimality within a confidence set for preference alignment. For preference data construction, we explore both offline and online preference-based KD. Additionally, we reformulate the RM using the $Q$-value function and extend the framework to white-box KD, where the teacher policy's predicted probabilities are accessible. Theoretical analysis and empirical results demonstrate the effectiveness of the proposed framework.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)に対する知識蒸留(KD)を優先最適化により研究する。
本稿では,学生と教師の政策間のパフォーマンスギャップを最小限に抑えるために,政策と報酬モデル(RM)間のmin-max最適化問題を定式化した,シーケンシャルKDのための報酬誘導型模倣学習フレームワークを提案する。
具体的には、プライオリティアライメントのための信頼セット内で、報酬最適化をほぼ最適にするために制約する。
嗜好データ構築のために、オフラインとオンラインの嗜好に基づくKDについて検討する。
さらに、Q$-value関数を用いてRMを再構成し、このフレームワークをホワイトボックスKDに拡張する。
理論的解析と実証実験により,提案手法の有効性が示された。
関連論文リスト
- Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。
本稿では,新しい伝達学習原理と理論的アルゴリズムを提案する。
我々は、計算効率を向上したウィンレートベースの転送ポリシー選択戦略を開発する。
論文 参考訳(メタデータ) (2025-02-26T16:03:06Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Towards Off-Policy Reinforcement Learning for Ranking Policies with
Human Feedback [47.03475305565384]
本稿では,ユーザの長期報酬を同時に最大化し,オフラインでランキングを最適化する,新たなオフ政治価値ランキング(VR)アルゴリズムを提案する。
EMプロセスは、将来の報酬とランキング基準の統合の恩恵を享受し、オンラインインタラクションなしで学習するために、リーンポリシーを導いてくれる。
論文 参考訳(メタデータ) (2024-01-17T04:19:33Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。