論文の概要: Knowledge Distillation of Black-Box Large Language Models
- arxiv url: http://arxiv.org/abs/2401.07013v2
- Date: Sat, 09 Nov 2024 01:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:04:35.598040
- Title: Knowledge Distillation of Black-Box Large Language Models
- Title(参考訳): ブラックボックス大言語モデルの知識蒸留
- Authors: Hongzhan Chen, Ruijun Chen, Yuqi Yi, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang,
- Abstract要約: Proxy-KD はプロキシモデルを用いてブラックボックス LLM からより小さなモデルへの知識の効率的な伝達を容易にする新しい手法である。
実験の結果,プロキシーKDはブラックボックスの教師モデルからKDの性能を向上させるだけでなく,従来のホワイトボックスのKDよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 53.37230208191968
- License:
- Abstract: Given the exceptional performance of proprietary large language models (LLMs) like GPT-4, recent research has increasingly focused on boosting the capabilities of smaller models through knowledge distillation (KD) from these powerful yet black-box teachers. While leveraging the high-quality outputs of these teachers is advantageous, the inaccessibility of their internal states often limits effective knowledge transfer. To overcome this limitation, we introduce Proxy-KD, a novel method that uses a proxy model to facilitate the efficient transfer of knowledge from black-box LLMs to smaller models. Our experiments show that Proxy-KD not only enhances the performance of KD from black-box teacher models but also surpasses traditional white-box KD techniques.~This approach presents a compelling new avenue for distilling knowledge from advanced LLMs.
- Abstract(参考訳): GPT-4のようなプロプライエタリな大規模言語モデル(LLM)の例外的な性能を考えると、最近の研究は知識蒸留(KD)を通じてより小さなモデルの能力を高めることに集中している。
これらの教師の高品質なアウトプットを活用することは有利であるが、内部状態のアクセス不能は、しばしば効果的な知識伝達を制限する。
この制限を克服するため,プロキシモデルを用いて,ブラックボックス LLM からより小さなモデルへの知識の効率的な伝達を容易にする手法である Proxy-KD を導入する。
実験の結果,プロキシーKDはブラックボックスの教師モデルからKDの性能を向上させるだけでなく,従来のホワイトボックスのKDよりも優れていることがわかった。
この手法は, 先進LLMからの知識を蒸留するための, 魅力的な新しい道を示すものである。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - DDK: Distilling Domain Knowledge for Efficient Large Language Models [40.839056203329136]
知識蒸留(KD)は、より小さな言語モデルの性能を向上させる効果的な戦略として登場した。
本稿では,教員モデルと学生モデルとのドメイン性能差に応じて蒸留データセットの構成を調整するDDKについて紹介する。
大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2024-07-23T03:47:28Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。