論文の概要: Accelerating Natural Language Understanding in Task-Oriented Dialog
- arxiv url: http://arxiv.org/abs/2006.03701v1
- Date: Fri, 5 Jun 2020 21:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:51:27.886912
- Title: Accelerating Natural Language Understanding in Task-Oriented Dialog
- Title(参考訳): タスク指向対話における自然言語理解の促進
- Authors: Ojas Ahuja and Shrey Desai
- Abstract要約: 構造化プルーニングにより圧縮された単純な畳み込みモデルは,ATIS や Snips のBERT にほぼ匹敵する結果となり,100K 以下のパラメータが得られた。
また、CPU上でのアクセラレーション実験を行い、マルチタスクモデルでDistilBERTの約63倍の速度でインテントやスロットを予測する。
- 参考スコア(独自算出の注目度): 6.757982879080109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialog models typically leverage complex neural architectures
and large-scale, pre-trained Transformers to achieve state-of-the-art
performance on popular natural language understanding benchmarks. However,
these models frequently have in excess of tens of millions of parameters,
making them impossible to deploy on-device where resource-efficiency is a major
concern. In this work, we show that a simple convolutional model compressed
with structured pruning achieves largely comparable results to BERT on ATIS and
Snips, with under 100K parameters. Moreover, we perform acceleration
experiments on CPUs, where we observe our multi-task model predicts intents and
slots nearly 63x faster than even DistilBERT.
- Abstract(参考訳): タスク指向ダイアログモデルは通常、複雑なニューラルネットワークアーキテクチャと大規模で事前学習されたトランスフォーマを使用して、人気のある自然言語理解ベンチマークで最先端のパフォーマンスを達成する。
しかしながら、これらのモデルは数千万以上のパラメータを持つことが多く、リソース効率が大きな懸念事項であるデバイス上でのデプロイが不可能である。
本研究では,構造的プルーニングで圧縮された単純な畳み込みモデルが,atisおよびsnipsのbertとほぼ同等の結果を100k以下のパラメータで達成することを示す。
さらに、我々はCPU上で加速実験を行い、マルチタスクモデルがDistilBERTよりも63倍早く意図やスロットを予測するのを観察した。
関連論文リスト
- Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。
本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文 参考訳(メタデータ) (2024-05-03T17:34:57Z) - Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。
業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。
我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文 参考訳(メタデータ) (2022-10-27T07:22:50Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。