Fugu-MT 論文翻訳(概要): Knowledge Distillation Using Frontier Open-source LLMs: Generalizability and the Role of Synthetic Data

論文の概要: Knowledge Distillation Using Frontier Open-source LLMs: Generalizability and the Role of Synthetic Data

arxiv url: http://arxiv.org/abs/2410.18588v1
Date: Thu, 24 Oct 2024 09:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.849701
Title: Knowledge Distillation Using Frontier Open-source LLMs: Generalizability and the Role of Synthetic Data
Title（参考訳）: Frontier オープンソース LLM を用いた知識蒸留 : 一般化可能性と合成データの役割
Authors: Anup Shirgaonkar, Nikhil Pandey, Nazmiye Ceren Abay, Tolga Aktas, Vijay Aski,
Abstract要約: 大規模なオープンソース言語モデル(LLM)は、より小さなLLMよりも推論コストとレイテンシが高い。知識蒸留は、これらの大規模で有能な教師モデルからの出力を使用して、より小さな学生モデルを訓練する方法を提供する。 Llama-3.1-405B-インストラクタとLlama-3.1-8B-インストラクタとLlama-3.1-70B-インストラクタを用いた蒸留の有効性を検討した。
参考スコア（独自算出の注目度）: 0.01884913108327873
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Leading open-source large language models (LLMs) such as Llama-3.1-Instruct-405B are extremely capable at generating text, answering questions, and solving a variety of natural language understanding tasks. However, they incur higher inference cost and latency compared to smaller LLMs. Knowledge distillation provides a way to use outputs from these large, capable teacher models to train smaller student models which can be used for inference at lower cost and latency, while retaining comparable accuracy. We investigate the efficacy of distillation using the Llama-3.1-405B-Instruct teacher and the smaller Llama-3.1-8B-Instruct and Llama-3.1-70B-Instruct student models. Contributions of this work include (a) We evaluate the generalizability of distillation with the above Llama-3.1 teacher-student pairs across different tasks and datasets (b) We show that using synthetic data during distillation significantly improves the accuracy of 8B and 70B models, and when used with reasoning chains, even matches or surpasses the zero-shot accuracy of 405B model on some datasets (c) We empirically show that distillation enables 8B and 70B models to internalize 405B's reasoning ability by using only standard fine-tuning (without customizing any loss function). This allows cost and latency-efficient student model inference. (d) We show pitfalls in evaluation of distillation, and present task-specific evaluation, including both human and LLM-grading, and ground-truth based traditional accuracy benchmarks. This methodical study brings out the fundamental importance of synthetic data quality in knowledge distillation, and of combining multiple, task-specific ways of accuracy and quality evaluation in assessing the effectiveness of distillation.
Abstract（参考訳）: Llama-3.1-Instruct-405Bのようなオープンソースの大規模言語モデル(LLM)は、テキストを生成し、質問に答え、さまざまな自然言語理解タスクを解く能力が非常に高い。しかし、より小さなLSMに比べて推論コストとレイテンシが高くなる。知識蒸留は、これらの大規模で有能な教師モデルの出力を使用して、より小さな学生モデルを訓練する方法を提供する。 Llama-3.1-405B-インストラクタとLlama-3.1-8B-インストラクタとLlama-3.1-70B-インストラクタを用いた蒸留の有効性を検討した。この作品のコントリビューションには、以下のものがある。 (a)上述のLlama-3.1教師-学生対による蒸留の一般化可能性の評価 b) 蒸留における合成データの使用は,8Bおよび70Bモデルの精度を著しく向上させるとともに,推論連鎖を用いた場合,405Bモデルのゼロショット精度に適合または超過することを示す。 (c) 蒸留により, 標準微調整のみを用いることで, 8B, 70Bモデルで405Bの推理能力を内部化できることを実証的に示す。これにより、コストとレイテンシ効率のよい学生モデル推論が可能になる。 (d) 蒸留評価における落とし穴と, 人的・LLMグレーディング, 地中信頼度に基づく従来の精度ベンチマークを含むタスク固有の評価について述べる。本研究は, 知識蒸留における合成データ品質の基本的な重要性を明らかにし, 蒸留の有効性を評価する上で, 複数のタスク固有の精度・品質評価方法を組み合わせることを目的とする。

関連論文リスト

Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文参考訳（メタデータ） (2025-04-22T17:32:48Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Enhancing Knowledge Distillation for LLMs with Response-Priming Prompting [1.9461727843485295]
そこで本研究では,学生モデルの性能向上のための新しい応答プライシング手法を提案する。 Llama 3.1 405B 教師モデルから知識を抽出し,より小さな Llama 3.1 8B 教師モデルを微調整する。その結果, 蒸留したLlama 3.1 8BインストラクトのGSM8Kは55%向上した。
論文参考訳（メタデータ） (2024-12-18T20:41:44Z)
Learning Effective Representations for Retrieval Using Self-Distillation with Adaptive Relevance Margins [29.88235846291593]
ビエンコーダは、それぞれの埋め込みの類似性を計算することによって、クエリに対するドキュメントの関連性を推定します。現在最先端のバイオエンコーダは、教師モデルからの知識蒸留とバッチサンプリングを含む高価なトレーニングシステムを用いて訓練されている。本稿では,エンコーダモデルの事前学習言語モデリング機能をトレーニング信号として活用する,自己超越のための新しいパラメータフリー損失関数を提案する。
論文参考訳（メタデータ） (2024-07-31T10:33:32Z)
Teaching with Uncertainty: Unleashing the Potential of Knowledge Distillation in Object Detection [47.0507287491627]
本稿では,物体検出のための知識の不確実性を考慮した特徴量に基づく蒸留パラダイムを提案する。モンテカルロのドロップアウト手法を利用して,学生モデルの学習過程に知識の不確実性を導入する。本手法は,複雑な構造や計算資源を必要とせずに,KDプロセス中に効果的に機能する。
論文参考訳（メタデータ） (2024-06-11T06:51:02Z)
Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文参考訳（メタデータ） (2024-05-01T16:13:54Z)
ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。 LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-20T15:47:59Z)
Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文参考訳（メタデータ） (2023-12-26T01:24:25Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文参考訳（メタデータ） (2023-05-26T05:19:24Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2022-10-12T17:54:59Z)
Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文参考訳（メタデータ） (2021-08-26T14:01:04Z)
Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文参考訳（メタデータ） (2020-06-23T15:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。