論文の概要: PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs
- arxiv url: http://arxiv.org/abs/2406.02886v2
- Date: Thu, 6 Jun 2024 12:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:34:24.454938
- Title: PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs
- Title(参考訳): PLaD:擬似参照ペアを用いた優先型大規模言語モデル蒸留
- Authors: Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Haorui Wang, Zhen Qin, Feng Han, Jialu Liu, Simon Baumgartner, Michael Bendersky, Chao Zhang,
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
- 参考スコア(独自算出の注目度): 47.35598271306371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have exhibited impressive capabilities in various tasks, yet their vast parameter sizes restrict their applicability in resource-constrained settings. Knowledge distillation (KD) offers a viable solution by transferring expertise from large teacher models to compact student models. However, traditional KD techniques face specific challenges when applied to LLMs, including restricted access to LLM outputs, significant teacher-student capacity gaps, and the inherited mis-calibration issue. In this work, we present PLaD, a novel preference-based LLM distillation framework. PLaD exploits the teacher-student capacity discrepancy to generate pseudo-preference pairs where teacher outputs are preferred over student outputs. Then, PLaD leverages a ranking loss to re-calibrate student's estimation of sequence likelihood, which steers the student's focus towards understanding the relative quality of outputs instead of simply imitating the teacher. PLaD bypasses the need for access to teacher LLM's internal states, tackles the student's expressivity limitations, and mitigates the student mis-calibration issue. Through extensive experiments on two sequence generation tasks and with various LLMs, we demonstrate the effectiveness of our proposed PLaD framework.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
しかしながら、従来のKD技術は、LLM出力の制限、教師と学生の容量格差、継承された誤校正問題など、LLMに適用する際の特定の課題に直面している。
本研究は,新規な選好型LLM蒸留フレームワークであるPLaDについて述べる。
PLaDは教師と学生の能力の相違を利用して、学生の出力よりも教師の出力が優先される擬似参照ペアを生成する。
そして、PLaDはランキングの損失を利用して、生徒が教師を模倣するのではなく、出力の相対的品質を理解することに焦点を当てたシーケンス可能性の推定を再検討する。
PLaDは、教師のLLMの内部状態へのアクセスの必要性を回避し、生徒の表現力制限に対処し、生徒の誤校正問題を緩和する。
2つのシーケンス生成タスクと各種LLMの広範な実験を通じて,提案手法の有効性を実証した。
関連論文リスト
- Pre-training Distillation for Large Language Models: A Design Space Exploration [54.67324039434781]
予習蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。
我々は, プレトレーニング蒸留の設計空間を探索し, より良い構成を求める実験を行った。
我々は, 設計分野の探究が, 予修蒸留の今後の実践に影響を及ぼすことを期待している。
論文 参考訳(メタデータ) (2024-10-21T17:16:13Z) - Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Aligning Teacher with Student Preferences for Tailored Training Data Generation [40.85451525264779]
StudenT PreferencEs を用いた Aligning TeacheR という ARTE を提案する。
具体的には,教師モデルから質問文と合理性を抽出し,これらの質問文と合理性に関する学生の嗜好を収集する。
最後に,教師モデルと協調する第1ステップを繰り返すことで,対象課題における生徒モデルに適した訓練例を提示する。
論文 参考訳(メタデータ) (2024-06-27T14:51:17Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Adversarial Moment-Matching Distillation of Large Language Models [3.9160947065896803]
知識蒸留(KD)は、より大きな教師モデルで学生モデルを導くのに非常に効果的であることが示されている。
そこで本稿では,モーメントマッチング距離を推定し,学生のポリシーを最適化して最小化するための逆トレーニングアルゴリズムを提案する。
タスクに依存しない指示追従実験とタスク固有の実験の両方の結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-05T05:27:29Z) - Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。
しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。
本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文 参考訳(メタデータ) (2024-05-01T06:23:54Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。