論文の概要: AutoDistill: an End-to-End Framework to Explore and Distill
Hardware-Efficient Language Models
- arxiv url: http://arxiv.org/abs/2201.08539v1
- Date: Fri, 21 Jan 2022 04:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:26:12.089253
- Title: AutoDistill: an End-to-End Framework to Explore and Distill
Hardware-Efficient Language Models
- Title(参考訳): AutoDistill: ハードウェア効率の良い言語モデルを探索し、拡張するためのエンドツーエンドフレームワーク
- Authors: Xiaofan Zhang, Zongwei Zhou, Deming Chen, Yu Emma Wang
- Abstract要約: ハードウェア効率の良いNLP事前学習モデルを構築するためのエンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。
TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。
GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングするために蒸留されたモデルは81.69の平均スコアを得る。
- 参考スコア(独自算出の注目度): 20.04008357406888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large pre-trained models have significantly improved the
performance of various Natural LanguageProcessing (NLP) tasks but they are
expensive to serve due to long serving latency and large memory usage. To
compress these models, knowledge distillation has attracted an increasing
amount of interest as one of the most effective methods for model compression.
However, existing distillation methods have not yet addressed the unique
challenges of model serving in datacenters, such as handling fast evolving
models, considering serving performance, and optimizing for multiple
objectives. To solve these problems, we propose AutoDistill, an end-to-end
model distillation framework integrating model architecture exploration and
multi-objective optimization for building hardware-efficient NLP pre-trained
models. We use Bayesian Optimization to conduct multi-objective Neural
Architecture Search for selecting student model architectures. The proposed
search comprehensively considers both prediction accuracy and serving latency
on target hardware. The experiments on TPUv4i show the finding of seven model
architectures with better pre-trained accuracy (up to 3.2% higher) and lower
inference latency (up to 1.44x faster) than MobileBERT. By running downstream
NLP tasks in the GLUE benchmark, the model distilled for pre-training by
AutoDistill with 28.5M parameters achieves an 81.69 average score, which is
higher than BERT_BASE, DistillBERT, TinyBERT, NAS-BERT, and MobileBERT. The
most compact model found by AutoDistill contains only 20.6M parameters but
still outperform BERT_BASE(109M), DistillBERT(67M), TinyBERT(67M), and
MobileBERT(25.3M) regarding the average GLUE score. By evaluating on SQuAD, a
model found by AutoDistill achieves an 88.4% F1 score with 22.8M parameters,
which reduces parameters by more than 62% while maintaining higher accuracy
than DistillBERT, TinyBERT, and NAS-BERT.
- Abstract(参考訳): 近年、大規模事前学習モデルにより、様々な自然言語処理(nlp)タスクの性能が大幅に向上しているが、長時間の待ち時間とメモリ使用量のため、運用にコストがかかる。
これらのモデルを圧縮するために、知識蒸留はモデル圧縮の最も効果的な方法の1つとして興味を惹きつけている。
しかし, 既存の蒸留法は, 高速進化モデル処理, 性能評価, 複数目的の最適化など, データセンターにおけるモデルサービスというユニークな課題にまだ対処していない。
これらの問題を解決するために,モデルアーキテクチャ探索と,ハードウェア効率の良いNLP事前学習モデル構築のための多目的最適化を統合した,エンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。
ベイズ最適化を用いて,多目的ニューラルアーキテクチャ探索を行い,学生モデルアーキテクチャを選択する。
提案手法は,ターゲットハードウェアの予測精度と待ち時間の両方を包括的に検討する。
TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。
GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングされたモデルは、BERT_BASE、DistillBERT、TinyBERT、NAS-BERT、MobileBERTよりも高い81.69の平均スコアを得る。
AutoDistillが発見した最もコンパクトなモデルは、20.6Mのパラメータしか含まないが、平均GLUEスコアに関するBERT_BASE(109M)、DistillBERT(67M)、TinyBERT(67M)、MobileBERT(25.3M)よりも優れている。
SQuADを評価することで、AutoDistillが発見したモデルでは、88.4%のF1スコアが22.8Mパラメータで達成され、DistillBERT、TinyBERT、NAS-BERTよりも高い精度を維持しながらパラメータを62%以上削減できる。
関連論文リスト
- Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Achieving Pareto Optimality using Efficient Parameter Reduction for DNNs in Resource-Constrained Edge Environment [1.9055921262476347]
本稿では,既存のDeep Neural Network (DNN) の最適化を提案する。
精度を犠牲にすることなくモデルサイズを縮小し、トレーニング中のメモリ使用量を削減できるXceptionの効率的なパラメータ削減戦略を実装した。
論文 参考訳(メタデータ) (2024-03-14T19:40:58Z) - Quantized Distillation: Optimizing Driver Activity Recognition Models
for Resource-Constrained Environments [34.80538284957094]
本稿では,資源効率の高いドライバアクティビティ認識のための軽量フレームワークを提案する。
このフレームワークは、ビデオ分類のスピードに最適化されたニューラルネットワークである3D MobileNetを強化する。
モデルサイズを3倍に削減し、推論時間を1.4倍改善する。
論文 参考訳(メタデータ) (2023-11-10T10:07:07Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - FlexiBERT: Are Current Transformer Architectures too Homogeneous and
Rigid? [7.813154720635396]
本稿では,多種多様な演算可能なエンコーダ層を有する多種多様なモデルであるFlexiBERTを提案する。
また、この新たなスキーム、ベイズモデル、二階最適化を活用した新しいNASポリシーであるBOSHNASを提案する。
包括的な実験の結果、FlexiBERTの設計領域に適用された提案されたポリシーは、従来のモデルと比較してパフォーマンスのフロンティアを上方に押し上げる。
論文 参考訳(メタデータ) (2022-05-23T22:44:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。
第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。
我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文 参考訳(メタデータ) (2022-04-13T09:45:08Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。