論文の概要: Knowledge Distillation for Closed-Source Language Models
- arxiv url: http://arxiv.org/abs/2401.07013v1
- Date: Sat, 13 Jan 2024 08:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:05:11.756198
- Title: Knowledge Distillation for Closed-Source Language Models
- Title(参考訳): クローズドソース言語モデルのための知識蒸留
- Authors: Hongzhan Chen, Xiaojun Quan, Hehong Chen, Ming Yan and Ji Zhang
- Abstract要約: 本稿では,ベイズ推定フレームワーク内でのクローズドソース言語モデルの出力分布を推定する。
クローズドソース言語モデルの出力分布を推定することにより、従来の知識蒸留を実行することができる。
- 参考スコア(独自算出の注目度): 39.089252965487695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Closed-source language models such as GPT-4 have achieved remarkable
performance. Many recent studies focus on enhancing the capabilities of smaller
models through knowledge distillation from closed-source language models.
However, due to the incapability to directly access the weights, hidden states,
and output distributions of these closed-source models, the distillation can
only be performed by fine-tuning smaller models with data samples generated by
closed-source language models, which constrains the effectiveness of knowledge
distillation. In this paper, we propose to estimate the output distributions of
closed-source language models within a Bayesian estimation framework, involving
both prior and posterior estimation. The prior estimation aims to derive a
prior distribution by utilizing the corpus generated by closed-source language
models, while the posterior estimation employs a proxy model to update the
prior distribution and derive a posterior distribution. By leveraging the
estimated output distribution of closed-source language models, traditional
knowledge distillation can be executed. Experimental results demonstrate that
our method surpasses the performance of current models directly fine-tuned on
data generated by closed-source language models.
- Abstract(参考訳): gpt-4のようなクローズドソース言語モデルは素晴らしいパフォーマンスを達成している。
近年の多くの研究は、クローズドソース言語モデルからの知識蒸留による小型モデルの能力向上に焦点を当てている。
しかし、これらの閉ソースモデルの重みや隠れ状態、出力分布に直接アクセスできないため、この蒸留は、知識蒸留の有効性を制限するクローズドソース言語モデルによって生成されたデータサンプルを用いて、小さなモデルを微調整することでのみ行うことができる。
本稿では,ベイズ推定フレームワークにおけるクローズドソース言語モデルの出力分布を,事前推定と後続推定の両方を用いて推定する。
先行推定は、クローズドソース言語モデルによって生成されたコーパスを利用して、先行分布を導出することを目的としており、後続推定は、先行分布を更新し、後続分布を導出するプロキシモデルを用いる。
クローズドソース言語モデルの推定出力分布を利用することで、従来の知識蒸留を行うことができる。
実験の結果,クローズドソース言語モデルが生成するデータに基づいて,現在のモデルの性能を直接微調整した。
関連論文リスト
- GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。
LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。
ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文 参考訳(メタデータ) (2024-03-28T18:08:22Z) - Combining inherent knowledge of vision-language models with unsupervised
domain adaptation through self-knowledge distillation [49.65728535989119]
教師なしドメイン適応(UDA)は、ラベル付きソースデータセットを活用することで、データのラベル付けの面倒な作業を克服しようとする。
現在の視覚言語モデルは驚くべきゼロショット予測能力を示している。
UDAを通じて得られた知識と、視覚言語モデルの本質的な知識を組み合わせる。
論文 参考訳(メタデータ) (2023-12-07T06:16:39Z) - Reimagining Retrieval Augmented Language Models for Answering Queries [23.373952699385427]
本稿では,大規模言語モデルに対する現実性チェックと,比較対象言語モデル検索の可能性を検証する。
このような言語モデルは半パラメトリックであり、モデルがモデルパラメータと外部データソースからの知識を統合して予測を行う。
論文 参考訳(メタデータ) (2023-06-01T18:08:51Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - Better Low-Resource Entity Recognition Through Translation and
Annotation Fusion [12.864201646293248]
我々は、低リソースの言語テキストを高リソースの言語に翻訳してアノテーションを提供する、Translation-and-fusionフレームワークを紹介した。
このフレームワークをベースとしたTransFusionは、低リソース言語で堅牢な予測を行うために、高リソース言語からの予測を融合するよう訓練されたモデルである。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Continual Knowledge Distillation for Neural Machine Translation [74.03622486218597]
並列コーパスは、データ著作権、データプライバシ、競争上の差別化の理由から、一般にはアクセスできない。
本稿では,既存の翻訳モデルを利用して,関心の1つのモデルを改善するための連続的知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-12-18T14:41:13Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。