論文の概要: Evolving Knowledge Distillation with Large Language Models and Active
Learning
- arxiv url: http://arxiv.org/abs/2403.06414v1
- Date: Mon, 11 Mar 2024 03:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:21:43.546469
- Title: Evolving Knowledge Distillation with Large Language Models and Active
Learning
- Title(参考訳): 大規模言語モデルとアクティブラーニングによる知識蒸留の進化
- Authors: Chengyuan Liu, Yangyang Kang, Fubang Zhao, Kun Kuang, Zhuoren Jiang,
Changlong Sun, Fei Wu
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。
従来の研究は、注釈付きデータを生成してLPMの知識をより小さなモデルに抽出しようと試みてきた。
EvoKD: Evolving Knowledge Distillationを提案する。これは、アクティブラーニングの概念を利用して、大規模言語モデルを用いたデータ生成のプロセスをインタラクティブに強化する。
- 参考スコア(独自算出の注目度): 46.85430680828938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across
various NLP tasks. However, their computational costs are prohibitively high.
To address this issue, previous research has attempted to distill the knowledge
of LLMs into smaller models by generating annotated data. Nonetheless, these
works have mainly focused on the direct use of LLMs for text generation and
labeling, without fully exploring their potential to comprehend the target task
and acquire valuable knowledge. In this paper, we propose EvoKD: Evolving
Knowledge Distillation, which leverages the concept of active learning to
interactively enhance the process of data generation using large language
models, simultaneously improving the task capabilities of small domain model
(student model). Different from previous work, we actively analyze the student
model's weaknesses, and then synthesize labeled samples based on the analysis.
In addition, we provide iterative feedback to the LLMs regarding the student
model's performance to continuously construct diversified and challenging
samples. Experiments and analysis on different NLP tasks, namely, text
classification and named entity recognition show the effectiveness of EvoKD.
- Abstract(参考訳): 大規模言語モデル (llm) は様々な nlp タスクで顕著な性能を示している。
しかし、計算コストは極めて高い。
この問題に対処するために、以前の研究は、注釈付きデータを生成することによってllmの知識をより小さなモデルに絞り込もうと試みている。
しかしながら、これらの研究は主にテキスト生成とラベリングにLLMを直接使用することに焦点を当てており、目的のタスクを理解して貴重な知識を得る可能性を十分に探求していない。
本稿では,大規模言語モデルを用いたデータ生成過程を対話的に改善するためにアクティブラーニングという概念を活用し,小型ドメインモデルのタスク能力向上を同時に行う,evokd: evolution knowledge distillationを提案する。
従来の研究と異なり,学生モデルの弱点を積極的に分析し,分析に基づいてラベル付きサンプルを合成する。
さらに,学生モデルの性能に関するllmに反復的なフィードバックを提供し,多様で難解なサンプルを継続的に構築する。
異なるNLPタスク、すなわちテキスト分類と名前付きエンティティ認識の実験と分析は、EvoKDの有効性を示している。
関連論文リスト
- Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。
我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification [0.8232137862012223]
本研究では,Large Language Models (LLMs) のドメイン固有情報の生成と提供における可能性について検討する。
これを実現するために、LLMは知識グラフと事前訓練されたセマンティックベクターを利用するパイプラインに統合される。
その結果,LLMをベースとした組込みと汎用的な事前学習型組込みを組み合わせることで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T18:08:44Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - From Text to Source: Results in Detecting Large Language Model-Generated Content [17.306542392779445]
大きな言語モデル(LLM)は、人間に似たテキストを生成する能力によって祝われる。
本稿では,LLM生成テキストと人文テキストを区別するために訓練された分類器が,それ以上の訓練を行なわずに目標LLMからテキストを検出することができるかどうかを評価することで,Cross-Model Detectionについて検討する。
この研究では、量化と透かし検出に加えて、ソースモデル識別、モデルファミリー、モデルサイズ分類を含むモデル属性についても検討している。
論文 参考訳(メタデータ) (2023-09-23T09:51:37Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。