論文の概要: Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems
- arxiv url: http://arxiv.org/abs/2206.07808v1
- Date: Wed, 15 Jun 2022 20:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 13:29:39.285196
- Title: Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems
- Title(参考訳): Alexa 教師モデル:自然言語理解システムのためのマルチビリオンパラメータエンコーダの事前学習と拡張
- Authors: Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas, Davide
Bernardi, Abhishek Bhagia, Claudio Delli Bovi, Jin Cao, Rakesh Chada, Amit
Chauhan, Luoxin Chen, Anurag Dwarakanath, Satyam Dwivedi, Turan Gojayev,
Karthik Gopalakrishnan, Thomas Gueudre, Dilek Hakkani-Tur, Wael Hamza,
Jonathan Hueser, Kevin Martin Jose, Haidar Khan, Beiye Liu, Jianhua Lu,
Alessandro Manzotti, Pradeep Natarajan, Karolina Owczarzak, Gokmen Oz, Enrico
Palumbo, Charith Peris, Chandana Satya Prakash, Stephen Rawls, Andy
Rosenbaum, Anjali Shenoy, Saleh Soltan, Mukund Harakere Sridhar, Liz Tan,
Fabian Triefenbach, Pan Wei, Haiyang Yu, Shuai Zheng, Gokhan Tur, Prem
Natarajan
- Abstract要約: 本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
- 参考スコア(独自算出の注目度): 63.713297451300086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present results from a large-scale experiment on pretraining encoders with
non-embedding parameter counts ranging from 700M to 9.3B, their subsequent
distillation into smaller models ranging from 17M-170M parameters, and their
application to the Natural Language Understanding (NLU) component of a virtual
assistant system. Though we train using 70% spoken-form data, our teacher
models perform comparably to XLM-R and mT5 when evaluated on the written-form
Cross-lingual Natural Language Inference (XNLI) corpus. We perform a second
stage of pretraining on our teacher models using in-domain data from our
system, improving error rates by 3.86% relative for intent classification and
7.01% relative for slot filling. We find that even a 170M-parameter model
distilled from our Stage 2 teacher model has 2.88% better intent classification
and 7.69% better slot filling error rates when compared to the 2.3B-parameter
teacher trained only on public data (Stage 1), emphasizing the importance of
in-domain data for pretraining. When evaluated offline using labeled NLU data,
our 17M-parameter Stage 2 distilled model outperforms both XLM-R Base (85M
params) and DistillBERT (42M params) by 4.23% to 6.14%, respectively. Finally,
we present results from a full virtual assistant experimentation platform,
where we find that models trained using our pretraining and distillation
pipeline outperform models distilled from 85M-parameter teachers by 3.74%-4.91%
on an automatic measurement of full-system user dissatisfaction.
- Abstract(参考訳): 本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つプリトレーニングエンコーダの大規模実験と,17M-170Mパラメータからより小さなモデルへの蒸留,および仮想アシスタントシステムの自然言語理解(NLU)コンポーネントへの応用について述べる。
70%の音声データを用いて訓練を行ったが,xnli (write-form cross-lingual natural language inference) コーパスで評価した場合,教師モデルはxlm-rとmt5に比較可能であった。
第2段階は,インテント分類における誤差率を3.86%,スロット充填率を7.01%向上させ,インドメインデータを用いた教師モデルの事前学習を行った。
その結果,第2段階の教師モデルから抽出した170Mパラメータモデルにおいても,事前学習におけるドメイン内データの重要性を強調した2.88%の意図分類と7.69%のスロット充填誤り率を有することがわかった。
ラベル付きNLUデータを用いてオフラインで評価した場合,17M-parameter Stage 2蒸留モデルでは,XLM-Rベース (85M params) とDistillBERT (42M params) がそれぞれ4.23%から6.14%向上した。
最後に, 実システム利用者の満足度の自動測定において, 85M-パラメーター教師から3.74%-4.91%の精度で, 事前学習および蒸留パイプラインを用いた学習モデルの性能向上を図った。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。
さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-05-06T15:11:38Z) - PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory
Access Prediction Models [2.404163279345609]
PaCKDはMAPモデルを圧縮するためのパターンクラスタ化知識蒸留手法である。
PaCKDは、標準的な知識蒸留で訓練された学生モデルよりも8.70%高い結果を得る。
論文 参考訳(メタデータ) (2024-02-21T00:24:34Z) - Gradient-based Parameter Selection for Efficient Fine-Tuning [41.30092426231482]
グラディエントベース。
選択(GPS)はパラメータ効率の良い新しい微調整法である。
GPSはトレーニングと推論の段階で追加のパラメータや計算コストを導入していない。
GPSは3.33%(91.78% vs. 88.45%, FGVC)、9.61%(73.1% vs. 65.57%, VTAB)の精度向上を実現している。
論文 参考訳(メタデータ) (2023-12-15T18:59:05Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - FPM: A Collection of Large-scale Foundation Pre-trained Language Models [0.0]
私たちは現在の効果的なモデル構造を使用して、現在の最も主流な技術を通じてモデルセットをローンチします。
将来的にはこれが基本モデルになると思います。
論文 参考訳(メタデータ) (2021-11-09T02:17:15Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。