論文の概要: A Cohesive Distillation Architecture for Neural Language Models
- arxiv url: http://arxiv.org/abs/2301.08130v1
- Date: Thu, 12 Jan 2023 08:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-29 13:57:58.031389
- Title: A Cohesive Distillation Architecture for Neural Language Models
- Title(参考訳): ニューラルランゲージモデルのための凝集蒸留アーキテクチャ
- Authors: Jan Philip Wahle
- Abstract要約: 自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A recent trend in Natural Language Processing is the exponential growth in
Language Model (LM) size, which prevents research groups without a necessary
hardware infrastructure from participating in the development process. This
study investigates methods for Knowledge Distillation (KD) to provide efficient
alternatives to large-scale models. In this context, KD means extracting
information about language encoded in a Neural Network and Lexical Knowledge
Databases. We developed two methods to test our hypothesis that efficient
architectures can gain knowledge from LMs and extract valuable information from
lexical sources. First, we present a technique to learn confident probability
distribution for Masked Language Modeling by prediction weighting of multiple
teacher networks. Second, we propose a method for Word Sense Disambiguation
(WSD) and lexical KD that is general enough to be adapted to many LMs. Our
results show that KD with multiple teachers leads to improved training
convergence. When using our lexical pre-training method, LM characteristics are
not lost, leading to increased performance in Natural Language Understanding
(NLU) tasks over the state-of-the-art while adding no parameters. Moreover, the
improved semantic understanding of our model increased the task performance
beyond WSD and NLU in a real-problem scenario (Plagiarism Detection). This
study suggests that sophisticated training methods and network architectures
can be superior over scaling trainable parameters. On this basis, we suggest
the research area should encourage the development and use of efficient models
and rate impacts resulting from growing LM size equally against task
performance.
- Abstract(参考訳): 自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に大きくなることである。
本研究では,大規模モデルの効率的な代替手段として知識蒸留法(KD)を提案する。
この文脈では、KDはニューラルネットワークと語彙知識データベースに符号化された言語に関する情報を抽出することを意味する。
我々は、効率的なアーキテクチャがLMから知識を得て、語彙情報源から貴重な情報を抽出できるという仮説をテストする2つの方法を開発した。
まず,複数の教師ネットワークの重み付け予測によるマスキング言語モデルにおける自信確率分布の学習手法を提案する。
第二に,多くの LM に適応するのに十分な単語センスの曖昧さ (WSD) と語彙KD の手法を提案する。
以上の結果から,複数の教師のKDが学習の収束を向上させることが示唆された。
語彙事前学習法を使用すると、lm特性は失われず、パラメータを付加することなく、最先端の自然言語理解(nlu)タスクのパフォーマンスが向上する。
さらに, モデルの意味理解が向上し, 実問題シナリオ (plagiarism detection) において, wsd と nlu を超えてタスク性能が向上した。
本研究は,高度なトレーニング手法とネットワークアーキテクチャが,トレーニング可能なパラメータのスケーリングよりも優れていることを示唆する。
そこで本研究では,タスク性能に対して,LMサイズが等しく大きくなることによる効率的なモデルの開発と利用を促すことを提案する。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning [6.404122934568861]
スーパーバイザード・ラーニング(SL)アプローチは,従来の手法に比べてトレーニングデータが少なく,優れたパフォーマンスを実現している。
SLとRLの手法をMiniWoBベンチマーク上で組み合わせ,両手法の強みを利用する手法を提案する。
実験により,従来のSL手法よりも少ないデータ量で性能を向上し,RLモデルと性能ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2024-05-01T13:51:45Z) - Evolving Knowledge Distillation with Large Language Models and Active
Learning [46.85430680828938]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。
従来の研究は、注釈付きデータを生成してLPMの知識をより小さなモデルに抽出しようと試みてきた。
EvoKD: Evolving Knowledge Distillationを提案する。これは、アクティブラーニングの概念を利用して、大規模言語モデルを用いたデータ生成のプロセスをインタラクティブに強化する。
論文 参考訳(メタデータ) (2024-03-11T03:55:24Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。