Fugu-MT 論文翻訳(概要): AutoDistill: an End-to-End Framework to Explore and Distill Hardware-Efficient Language Models

論文の概要: AutoDistill: an End-to-End Framework to Explore and Distill Hardware-Efficient Language Models

arxiv url: http://arxiv.org/abs/2201.08539v1
Date: Fri, 21 Jan 2022 04:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-24 14:26:12.089253
Title: AutoDistill: an End-to-End Framework to Explore and Distill Hardware-Efficient Language Models
Title（参考訳）: AutoDistill: ハードウェア効率の良い言語モデルを探索し、拡張するためのエンドツーエンドフレームワーク
Authors: Xiaofan Zhang, Zongwei Zhou, Deming Chen, Yu Emma Wang
Abstract要約: ハードウェア効率の良いNLP事前学習モデルを構築するためのエンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。 TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。 GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングするために蒸留されたモデルは81.69の平均スコアを得る。
参考スコア（独自算出の注目度）: 20.04008357406888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large pre-trained models have significantly improved the performance of various Natural LanguageProcessing (NLP) tasks but they are expensive to serve due to long serving latency and large memory usage. To compress these models, knowledge distillation has attracted an increasing amount of interest as one of the most effective methods for model compression. However, existing distillation methods have not yet addressed the unique challenges of model serving in datacenters, such as handling fast evolving models, considering serving performance, and optimizing for multiple objectives. To solve these problems, we propose AutoDistill, an end-to-end model distillation framework integrating model architecture exploration and multi-objective optimization for building hardware-efficient NLP pre-trained models. We use Bayesian Optimization to conduct multi-objective Neural Architecture Search for selecting student model architectures. The proposed search comprehensively considers both prediction accuracy and serving latency on target hardware. The experiments on TPUv4i show the finding of seven model architectures with better pre-trained accuracy (up to 3.2% higher) and lower inference latency (up to 1.44x faster) than MobileBERT. By running downstream NLP tasks in the GLUE benchmark, the model distilled for pre-training by AutoDistill with 28.5M parameters achieves an 81.69 average score, which is higher than BERT_BASE, DistillBERT, TinyBERT, NAS-BERT, and MobileBERT. The most compact model found by AutoDistill contains only 20.6M parameters but still outperform BERT_BASE(109M), DistillBERT(67M), TinyBERT(67M), and MobileBERT(25.3M) regarding the average GLUE score. By evaluating on SQuAD, a model found by AutoDistill achieves an 88.4% F1 score with 22.8M parameters, which reduces parameters by more than 62% while maintaining higher accuracy than DistillBERT, TinyBERT, and NAS-BERT.
Abstract（参考訳）: 近年、大規模事前学習モデルにより、様々な自然言語処理(nlp)タスクの性能が大幅に向上しているが、長時間の待ち時間とメモリ使用量のため、運用にコストがかかる。これらのモデルを圧縮するために、知識蒸留はモデル圧縮の最も効果的な方法の1つとして興味を惹きつけている。しかし, 既存の蒸留法は, 高速進化モデル処理, 性能評価, 複数目的の最適化など, データセンターにおけるモデルサービスというユニークな課題にまだ対処していない。これらの問題を解決するために,モデルアーキテクチャ探索と,ハードウェア効率の良いNLP事前学習モデル構築のための多目的最適化を統合した,エンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。ベイズ最適化を用いて,多目的ニューラルアーキテクチャ探索を行い,学生モデルアーキテクチャを選択する。提案手法は,ターゲットハードウェアの予測精度と待ち時間の両方を包括的に検討する。 TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。 GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングされたモデルは、BERT_BASE、DistillBERT、TinyBERT、NAS-BERT、MobileBERTよりも高い81.69の平均スコアを得る。 AutoDistillが発見した最もコンパクトなモデルは、20.6Mのパラメータしか含まないが、平均GLUEスコアに関するBERT_BASE(109M)、DistillBERT(67M)、TinyBERT(67M)、MobileBERT(25.3M)よりも優れている。 SQuADを評価することで、AutoDistillが発見したモデルでは、88.4%のF1スコアが22.8Mパラメータで達成され、DistillBERT、TinyBERT、NAS-BERTよりも高い精度を維持しながらパラメータを62%以上削減できる。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
Achieving Pareto Optimality using Efficient Parameter Reduction for DNNs in Resource-Constrained Edge Environment [1.9055921262476347]
本稿では,既存のDeep Neural Network (DNN) の最適化を提案する。精度を犠牲にすることなくモデルサイズを縮小し、トレーニング中のメモリ使用量を削減できるXceptionの効率的なパラメータ削減戦略を実装した。
論文参考訳（メタデータ） (2024-03-14T19:40:58Z)
Quantized Distillation: Optimizing Driver Activity Recognition Models for Resource-Constrained Environments [34.80538284957094]
本稿では,資源効率の高いドライバアクティビティ認識のための軽量フレームワークを提案する。このフレームワークは、ビデオ分類のスピードに最適化されたニューラルネットワークである3D MobileNetを強化する。モデルサイズを3倍に削減し、推論時間を1.4倍改善する。
論文参考訳（メタデータ） (2023-11-10T10:07:07Z)
Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文参考訳（メタデータ） (2023-09-18T06:38:24Z)
Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文参考訳（メタデータ） (2022-06-15T20:44:23Z)
FlexiBERT: Are Current Transformer Architectures too Homogeneous and Rigid? [7.813154720635396]
本稿では,多種多様な演算可能なエンコーダ層を有する多種多様なモデルであるFlexiBERTを提案する。また、この新たなスキーム、ベイズモデル、二階最適化を活用した新しいNASポリシーであるBOSHNASを提案する。包括的な実験の結果、FlexiBERTの設計領域に適用された提案されたポリシーは、従来のモデルと比較してパフォーマンスのフロンティアを上方に押し上げる。
論文参考訳（メタデータ） (2022-05-23T22:44:34Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
TangoBERT: Reducing Inference Cost by using Cascaded Architecture [9.496399437260678]
ケースケードモデルアーキテクチャであるTangoBERTについて述べる。第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。
論文参考訳（メタデータ） (2022-04-13T09:45:08Z)
EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文参考訳（メタデータ） (2021-09-15T11:25:39Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文参考訳（メタデータ） (2020-06-05T19:54:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。