論文の概要: Multistage Collaborative Knowledge Distillation from Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.08640v1
- Date: Wed, 15 Nov 2023 01:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:40:06.311219
- Title: Multistage Collaborative Knowledge Distillation from Large Language
Models
- Title(参考訳): 大規模言語モデルによる多段階共同知識蒸留
- Authors: Jiachen Zhao, Wenlong Zhao, Andrew Drozdov, Benjamin Rozonoyer, Md
Arafat Sultan, Jay-Yoon Lee, Mohit Iyyer, Andrew McCallum
- Abstract要約: ラベル付きデータが不足している半教師付きシーケンス予測タスクについて検討し、効果的にモデルを微調整する。
これは、構文解析のようなタスクがアノテートするのに高価であり、事前訓練された言語モデルに馴染みのない場合に発生する。
本稿では, 学習者モデルから抽出した学習者が, 教師よりもよく一般化できることを示す。
- 参考スコア(独自算出の注目度): 63.26957760031662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study semi-supervised sequence prediction tasks where labeled data are too
scarce to effectively finetune a model and at the same time few-shot prompting
of a large language model (LLM) has suboptimal performance. This happens when a
task, such as parsing, is expensive to annotate and also unfamiliar to a
pretrained LLM. In this paper, we present a discovery that student models
distilled from a prompted LLM can often generalize better than their teacher on
such tasks. Leveraging this finding, we propose a new distillation method,
multistage collaborative knowledge distillation from an LLM (MCKD), for such
tasks. MCKD first prompts an LLM using few-shot in-context learning to produce
pseudolabels for unlabeled data. Then, at each stage of distillation, a pair of
students are trained on disjoint partitions of the pseudolabeled data. Each
student subsequently produces new and improved pseudolabels for the unseen
partition to supervise the next round of student(s) with. We show the benefit
of multistage cross-partition labeling on two constituency parsing tasks. On
CRAFT biomedical parsing, 3-stage MCKD with 50 labeled examples matches the
performance of supervised finetuning with 500 examples and outperforms the
prompted LLM and vanilla KD by 7.5% and 3.7% parsing F1, respectively.
- Abstract(参考訳): 本研究では,ラベル付きデータではモデルを効果的に細粒化できない場合と,大規模言語モデル(llm)の少ないプロンプトが最適ではない場合の半教師付きシーケンス予測タスクについて検討する。
これは、構文解析のようなタスクがアノテートするのに高価であり、事前訓練されたLLMに馴染みのない場合に発生する。
そこで本稿では,llmを駆使した生徒モデルが,教師よりもよく一般化できることを示す。
そこで本研究では, LLM (MCKD) からの多段階共同知識蒸留法である新しい蒸留法を提案する。
MCKDはまず、無ラベルデータのための擬似ラベルを生成するために、少数ショットのインコンテキスト学習を用いてLLMをプロンプトする。
そして、蒸留の各段階で、擬ラベルデータの解離分割について、一対の学生が訓練される。
各生徒はその後、未発見の分割のために新しい改良された擬似ラベルを作成し、次のラウンドの生徒を監督する。
我々は2つの選挙区解析タスクにおいて,多段階間ラベリングの利点を示す。
クラフトバイオメディカル解析では、50個のラベル付きサンプルを持つ3段階のmckdが500例の教師付き微調整の性能と一致し、それぞれ7.5%、バニラkdを3.7%上回った。
関連論文リスト
- Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining [23.418419374791107]
DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。
本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T03:23:16Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - SLaM: Student-Label Mixing for Distillation with Unlabeled Examples [15.825078347452024]
学生ラベル混合(SLaM)と呼ばれる未ラベル例を用いた知識蒸留の原理的手法を提案する。
SLaMは、いくつかの標準ベンチマークで評価することで、従来のアプローチよりも一貫して改善されている。
ランダムな分類雑音下でハーフスペースを学習する際の最もよく知られたサンプル複雑性を改善するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T00:14:44Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。