論文の概要: Distilling Large Language Models into Tiny Models for Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2402.09282v3
- Date: Sat, 9 Mar 2024 16:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:09:27.579839
- Title: Distilling Large Language Models into Tiny Models for Named Entity
Recognition
- Title(参考訳): 名前付きエンティティ認識のための大言語モデルをTinyモデルに拡張する
- Authors: Yining Huang
- Abstract要約: 本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略について検討する。
LLM アノテーションと LLM アノテーションを混合したデータを用いて BERT を訓練し,従来の手法に対する LLM アノテーションの有効性を分析した。
以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging Large Language Models (LLMs) like GPT-4 have revolutionized Natural
Language Processing (NLP), showing potential in traditional tasks such as Named
Entity Recognition (NER). Our study explores a three-phase training strategy
that harnesses GPT-4's capabilities to enhance the BERT model's performance on
NER. Initially, GPT-4 annotates a subset of the CONLL2003 and additional BBC
dataset without fine-tuning. We then train BERT using a mix of original and
LLM-annotated data, analyzing the efficacy of LLM annotations against
traditional methods. The second phase involves comparative experiments with
different training regimens, assessing the synergy between distilled and
original data. We observe that sequential strategies, particularly a simple mix
of training first with distilled data followed by original data, significantly
boost performance. In the third phase, we investigate various data blending
techniques, including sigmoid and power decay functions, to optimize the
training process further. Our results indicate that a strategic mix of
distilled and original data markedly elevates the NER capabilities of BERT. Our
approach presents a scalable methodology that reduces manual annotation costs
and increases efficiency, making it especially pertinent in resource-limited
and closed-network environments. The study concludes that while the 'Simple
Mix' strategy yields the best results, understanding its underlying mechanisms
requires further research. Future work will also focus on refining prompt
designs and enhancing annotation selection processes, aiming to extend our
methodology to diverse NLP tasks.
- Abstract(参考訳): GPT-4のような新しい大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらし、名前付きエンティティ認識 (NER) のような従来のタスクにも可能性を示している。
本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略を提案する。
当初、GPT-4はCONLL2003と追加のBBCデータセットのサブセットを微調整なしで注釈付けしていた。
BERT は,従来の LLM アノテーションと LLM アノテーションを混合して学習し,従来の手法に対する LLM アノテーションの有効性を解析する。
第2フェーズでは、異なるトレーニングレギュレータで比較実験を行い、蒸留データとオリジナルデータの相乗効果を評価する。
逐次的戦略,特に蒸留データを含む単純なトレーニングとオリジナルデータとの混合が,パフォーマンスを著しく向上させるのを観察した。
第3フェーズでは,sgmoid と power decay function を含む様々なデータブレンディング手法を調査し,さらにトレーニングプロセスを最適化した。
以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。
提案手法は,手動アノテーションコストを削減し,効率を向上し,特にリソース制限とクローズドネットワーク環境において,スケーラブルな手法を提案する。
この研究は、"Simple Mix"戦略が最良の結果をもたらす一方で、その基盤となるメカニズムを理解するにはさらなる研究が必要であると結論付けている。
今後の作業は、様々なNLPタスクに方法論を拡張することを目的として、プロンプトデザインの洗練とアノテーション選択プロセスの強化にも焦点をあてる。
関連論文リスト
- Learning to Maximize Mutual Information for Chain-of-Thought
Distillation [14.47452997404004]
CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
本稿では,この最適化問題を学習に基づく手法を用いて解くための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Gradient-Guided Importance Sampling for Learning Binary Energy-Based
Models [46.87187776084161]
本研究では,高次元データからエネルギーベースモデル(EBM)を学習するために,勾配誘導重要度サンプリング(RMwGGIS)との比整合を提案する。
合成離散データを用いた密度モデリング実験,グラフ生成,Isingモデルの訓練を行い,提案手法の評価を行った。
提案手法は,比例マッチングの限界を著しく軽減し,実際により効果的に実行し,高次元問題にスケールすることができる。
論文 参考訳(メタデータ) (2022-10-11T20:52:48Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - On the Marginal Benefit of Active Learning: Does Self-Supervision Eat
Its Cake? [31.563514432259897]
本稿では,自己指導型事前学習,能動的学習,一貫性型自己学習を統合した新しい枠組みを提案する。
i) 自己指導型事前学習は、特に少数レーベル体制において、セミ教師付き学習を大幅に改善する。
我々は、最先端のS4L技術と組み合わせることで、最先端のアクティブな学習アルゴリズムのさらなるメリットを観察できない。
論文 参考訳(メタデータ) (2020-11-16T17:34:55Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。