論文の概要: Knowledge Distillation for Closed-Source Language Models
- arxiv url: http://arxiv.org/abs/2401.07013v1
- Date: Sat, 13 Jan 2024 08:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:05:11.756198
- Title: Knowledge Distillation for Closed-Source Language Models
- Title(参考訳): クローズドソース言語モデルのための知識蒸留
- Authors: Hongzhan Chen, Xiaojun Quan, Hehong Chen, Ming Yan and Ji Zhang
- Abstract要約: 本稿では,ベイズ推定フレームワーク内でのクローズドソース言語モデルの出力分布を推定する。
クローズドソース言語モデルの出力分布を推定することにより、従来の知識蒸留を実行することができる。
- 参考スコア(独自算出の注目度): 39.089252965487695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Closed-source language models such as GPT-4 have achieved remarkable
performance. Many recent studies focus on enhancing the capabilities of smaller
models through knowledge distillation from closed-source language models.
However, due to the incapability to directly access the weights, hidden states,
and output distributions of these closed-source models, the distillation can
only be performed by fine-tuning smaller models with data samples generated by
closed-source language models, which constrains the effectiveness of knowledge
distillation. In this paper, we propose to estimate the output distributions of
closed-source language models within a Bayesian estimation framework, involving
both prior and posterior estimation. The prior estimation aims to derive a
prior distribution by utilizing the corpus generated by closed-source language
models, while the posterior estimation employs a proxy model to update the
prior distribution and derive a posterior distribution. By leveraging the
estimated output distribution of closed-source language models, traditional
knowledge distillation can be executed. Experimental results demonstrate that
our method surpasses the performance of current models directly fine-tuned on
data generated by closed-source language models.
- Abstract(参考訳): gpt-4のようなクローズドソース言語モデルは素晴らしいパフォーマンスを達成している。
近年の多くの研究は、クローズドソース言語モデルからの知識蒸留による小型モデルの能力向上に焦点を当てている。
しかし、これらの閉ソースモデルの重みや隠れ状態、出力分布に直接アクセスできないため、この蒸留は、知識蒸留の有効性を制限するクローズドソース言語モデルによって生成されたデータサンプルを用いて、小さなモデルを微調整することでのみ行うことができる。
本稿では,ベイズ推定フレームワークにおけるクローズドソース言語モデルの出力分布を,事前推定と後続推定の両方を用いて推定する。
先行推定は、クローズドソース言語モデルによって生成されたコーパスを利用して、先行分布を導出することを目的としており、後続推定は、先行分布を更新し、後続分布を導出するプロキシモデルを用いる。
クローズドソース言語モデルの推定出力分布を利用することで、従来の知識蒸留を行うことができる。
実験の結果,クローズドソース言語モデルが生成するデータに基づいて,現在のモデルの性能を直接微調整した。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - DDK: Distilling Domain Knowledge for Efficient Large Language Models [40.839056203329136]
知識蒸留(KD)は、より小さな言語モデルの性能を向上させる効果的な戦略として登場した。
本稿では,教員モデルと学生モデルとのドメイン性能差に応じて蒸留データセットの構成を調整するDDKについて紹介する。
大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2024-07-23T03:47:28Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。