論文の概要: Hybrid Policy Distillation for LLMs
- arxiv url: http://arxiv.org/abs/2604.20244v1
- Date: Wed, 22 Apr 2026 06:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.996194
- Title: Hybrid Policy Distillation for LLMs
- Title(参考訳): LLMのハイブリッド政策蒸留
- Authors: Wenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu,
- Abstract要約: 知識蒸留(KD)は大規模言語モデル(LLM)を圧縮するための強力なパラダイムである
既存のKD手法の設計を分解し、それらの相互接続を確立する統一的な視点を示す。
我々は, モードカバレッジとモード探索のバランスをとるために, フォワードとリバースKLの相補的な利点を統合するハイブリッド政策蒸留(HPD)を提案する。
- 参考スコア(独自算出の注目度): 40.69103815149454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD) is a powerful paradigm for compressing large language models (LLMs), whose effectiveness depends on intertwined choices of divergence direction, optimization strategy, and data regime. We break down the design of existing KD methods and present a unified view that establishes connections between them, reformulating KD as a reweighted log-likelihood objective at the token level. We further propose Hybrid Policy Distillation (HPD), which integrates the complementary advantages of forward and reverse KL to balance mode coverage and mode-seeking, and combines off-policy data with lightweight, approximate on-policy sampling. We validate HPD on long-generation math reasoning as well as short-generation dialogue and code tasks, demonstrating improved optimization stability, computational efficiency, and final performance across diverse model families and scales. The code related to this work is available at https://github.com/zwhong714/Hybrid-Policy-Distillation.
- Abstract(参考訳): 知識蒸留(KD)は大きな言語モデル(LLM)を圧縮するための強力なパラダイムであり、その有効性は分岐方向、最適化戦略、データ体制の相互選択に依存する。
我々は既存のKD手法の設計を分解し、それらの相互接続を確立する統一的な視点を示し、トークンレベルでのログライクな目的としてKDを再構成する。
さらに、モードカバレッジとモード検索のバランスをとるために、前向きと逆向きのKLの相補的な利点を統合するハイブリッド政策蒸留(HPD)を提案し、オフポリティクスデータと軽量で近似的なオンポリティクスサンプリングを組み合わせる。
我々は,多種多様なモデルファミリおよびスケールにおける最適化安定性,計算効率,最終性能の向上を実証し,HPDを長寿命の数学推論および短世代対話およびコードタスクで検証する。
この作業に関連するコードはhttps://github.com/zwhong714/Hybrid-Policy-Distillationで公開されている。
関連論文リスト
- IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning [13.655904209137006]
オフラインプランニングをデータ生成,教師付きトレーニング,オンライン推論にシームレスに組み込む新しいフレームワークである textbfImaginary Planning Distillation (IPD) を提案する。
まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。
従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
論文 参考訳(メタデータ) (2026-03-04T17:05:39Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。