Fugu-MT 論文翻訳(概要): Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems

論文の概要: Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems

arxiv url: http://arxiv.org/abs/2206.07808v1
Date: Wed, 15 Jun 2022 20:44:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-17 13:29:39.285196
Title: Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems
Title（参考訳）: Alexa 教師モデル:自然言語理解システムのためのマルチビリオンパラメータエンコーダの事前学習と拡張
Authors: Jack FitzGerald, Shankar Ananthakrishnan, Konstantine Arkoudas, Davide Bernardi, Abhishek Bhagia, Claudio Delli Bovi, Jin Cao, Rakesh Chada, Amit Chauhan, Luoxin Chen, Anurag Dwarakanath, Satyam Dwivedi, Turan Gojayev, Karthik Gopalakrishnan, Thomas Gueudre, Dilek Hakkani-Tur, Wael Hamza, Jonathan Hueser, Kevin Martin Jose, Haidar Khan, Beiye Liu, Jianhua Lu, Alessandro Manzotti, Pradeep Natarajan, Karolina Owczarzak, Gokmen Oz, Enrico Palumbo, Charith Peris, Chandana Satya Prakash, Stephen Rawls, Andy Rosenbaum, Anjali Shenoy, Saleh Soltan, Mukund Harakere Sridhar, Liz Tan, Fabian Triefenbach, Pan Wei, Haiyang Yu, Shuai Zheng, Gokhan Tur, Prem Natarajan
Abstract要約: 本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
参考スコア（独自算出の注目度）: 63.713297451300086
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present results from a large-scale experiment on pretraining encoders with non-embedding parameter counts ranging from 700M to 9.3B, their subsequent distillation into smaller models ranging from 17M-170M parameters, and their application to the Natural Language Understanding (NLU) component of a virtual assistant system. Though we train using 70% spoken-form data, our teacher models perform comparably to XLM-R and mT5 when evaluated on the written-form Cross-lingual Natural Language Inference (XNLI) corpus. We perform a second stage of pretraining on our teacher models using in-domain data from our system, improving error rates by 3.86% relative for intent classification and 7.01% relative for slot filling. We find that even a 170M-parameter model distilled from our Stage 2 teacher model has 2.88% better intent classification and 7.69% better slot filling error rates when compared to the 2.3B-parameter teacher trained only on public data (Stage 1), emphasizing the importance of in-domain data for pretraining. When evaluated offline using labeled NLU data, our 17M-parameter Stage 2 distilled model outperforms both XLM-R Base (85M params) and DistillBERT (42M params) by 4.23% to 6.14%, respectively. Finally, we present results from a full virtual assistant experimentation platform, where we find that models trained using our pretraining and distillation pipeline outperform models distilled from 85M-parameter teachers by 3.74%-4.91% on an automatic measurement of full-system user dissatisfaction.
Abstract（参考訳）: 本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つプリトレーニングエンコーダの大規模実験と,17M-170Mパラメータからより小さなモデルへの蒸留,および仮想アシスタントシステムの自然言語理解(NLU)コンポーネントへの応用について述べる。 70%の音声データを用いて訓練を行ったが,xnli (write-form cross-lingual natural language inference) コーパスで評価した場合,教師モデルはxlm-rとmt5に比較可能であった。第2段階は,インテント分類における誤差率を3.86%,スロット充填率を7.01%向上させ,インドメインデータを用いた教師モデルの事前学習を行った。その結果,第2段階の教師モデルから抽出した170Mパラメータモデルにおいても,事前学習におけるドメイン内データの重要性を強調した2.88%の意図分類と7.69%のスロット充填誤り率を有することがわかった。ラベル付きNLUデータを用いてオフラインで評価した場合,17M-parameter Stage 2蒸留モデルでは,XLM-Rベース (85M params) とDistillBERT (42M params) がそれぞれ4.23%から6.14%向上した。最後に, 実システム利用者の満足度の自動測定において, 85M-パラメーター教師から3.74%-4.91%の精度で, 事前学習および蒸留パイプラインを用いた学習モデルの性能向上を図った。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs [0.0]
本稿では,Hugingface の SmolLM2-1.7B ベースモデルを強化するために,AllenAI の Tulu 3 ポストトレーニングパイプラインを適応した命令チューニング言語モデル SmolTulu を提案する。 ARCやGSM8Kのような推論タスクは高い学習率からバッチサイズ比の恩恵を受ける一方、HellaSwagやIFEvalのようなパターン認識タスクは低い比率で最適な性能を示す。
論文参考訳（メタデータ） (2024-12-11T12:41:36Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-05-06T15:11:38Z)
PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory Access Prediction Models [2.404163279345609]
PaCKDはMAPモデルを圧縮するためのパターンクラスタ化知識蒸留手法である。 PaCKDは、標準的な知識蒸留で訓練された学生モデルよりも8.70%高い結果を得る。
論文参考訳（メタデータ） (2024-02-21T00:24:34Z)
Gradient-based Parameter Selection for Efficient Fine-Tuning [41.30092426231482]
グラディエントベース。選択(GPS)はパラメータ効率の良い新しい微調整法である。 GPSはトレーニングと推論の段階で追加のパラメータや計算コストを導入していない。 GPSは3.33%(91.78% vs. 88.45%, FGVC)、9.61%(73.1% vs. 65.57%, VTAB)の精度向上を実現している。
論文参考訳（メタデータ） (2023-12-15T18:59:05Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文参考訳（メタデータ） (2022-12-01T17:31:42Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
FPM: A Collection of Large-scale Foundation Pre-trained Language Models [0.0]
私たちは現在の効果的なモデル構造を使用して、現在の最も主流な技術を通じてモデルセットをローンチします。将来的にはこれが基本モデルになると思います。
論文参考訳（メタデータ） (2021-11-09T02:17:15Z)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文参考訳（メタデータ） (2020-06-05T19:54:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。