論文の概要: Distilling BERT for low complexity network training
- arxiv url: http://arxiv.org/abs/2105.06514v1
- Date: Thu, 13 May 2021 19:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 02:20:16.361900
- Title: Distilling BERT for low complexity network training
- Title(参考訳): 低複雑性ネットワークトレーニングのための蒸留BERT
- Authors: Bansidhar Mangalwedhekar
- Abstract要約: 本稿では,SST-2データセットの感情分析を用いて,BERT学習を BiLSTM や BiLSTM などの低複雑性モデルに伝達する効率について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper studies the efficiency of transferring BERT learnings to low
complexity models like BiLSTM, BiLSTM with attention and shallow CNNs using
sentiment analysis on SST-2 dataset. It also compares the complexity of
inference of the BERT model with these lower complexity models and underlines
the importance of these techniques in enabling high performance NLP models on
edge devices like mobiles, tablets and MCU development boards like Raspberry Pi
etc. and enabling exciting new applications.
- Abstract(参考訳): 本稿では,SST-2データセットの感情分析を用いて,BERT学習を BiLSTM や BiLSTM などの低複雑性モデルに伝達する効率について検討する。
また、BERTモデルとこれらのより低い複雑性モデルとの推論の複雑さを比較し、モバイル、タブレット、Raspberry PiのようなMCU開発ボードなどのエッジデバイスで高性能なNLPモデルを実現する上で、これらのテクニックの重要性を強調している。
そしてエキサイティングな新しい応用を可能にします
関連論文リスト
- A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Integrating LSTM and BERT for Long-Sequence Data Analysis in Intelligent Tutoring Systems [4.359769884713738]
長周期データ処理,すなわちLBKTのためのLSTM BERTに基づく知識追跡モデルを提案する。
その結果、LBKTはより高速で解釈可能であり、従来のディープラーニングベースの知識追跡手法よりもメモリコストが低いことが示唆された。
論文 参考訳(メタデータ) (2024-04-24T18:19:44Z) - Advancing IIoT with Over-the-Air Federated Learning: The Role of Iterative Magnitude Pruning [14.818439341517733]
産業用IoT(Industrial Internet of Things, IIoT)は、産業用4.0で、相互接続型スマートデバイスの時代を象徴している。
FL(Federated Learning)は、デバイス間のデータプライバシとセキュリティに対処する。
FLは、機密データを明示的に共有することなく、エッジセンサーがデータをローカルで学習し、適応することを可能にする。
論文 参考訳(メタデータ) (2024-03-21T04:15:56Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - When BERT Meets Quantum Temporal Convolution Learning for Text
Classification in Heterogeneous Computing [75.75419308975746]
本研究は,変分量子回路に基づく垂直連合学習アーキテクチャを提案し,テキスト分類のための量子化事前学習BERTモデルの競争性能を実証する。
目的分類実験により,提案したBERT-QTCモデルにより,SnipsおよびATIS音声言語データセットの競合実験結果が得られた。
論文 参考訳(メタデータ) (2022-02-17T09:55:21Z) - Which Student is Best? A Comprehensive Knowledge Distillation Exam for
Task-Specific BERT Models [3.303435360096988]
タスク固有のBERTベースの教師モデルから様々な学生モデルへの知識蒸留ベンチマークを行う。
インドネシア語でテキスト分類とシークエンスラベリングという2つのタスクでグループ化された12のデータセットについて実験を行った。
実験の結果, トランスフォーマーモデルの普及にもかかわらず, BiLSTM と CNN の学生モデルを用いることで, 性能と計算資源の最良のトレードオフが得られることがわかった。
論文 参考訳(メタデータ) (2022-01-03T10:07:13Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Towards Interpretable Deep Learning Models for Knowledge Tracing [62.75876617721375]
本稿では,深層学習に基づく知識追跡(DLKT)モデルの解釈可能性問題に対処するポストホック手法を提案する。
具体的には、RNNに基づくDLKTモデルを解釈するために、レイヤワイズ関連伝搬法(LRP)を適用することに焦点をあてる。
実験結果から,DLKTモデルの予測をLRP法で解釈できることを示す。
論文 参考訳(メタデータ) (2020-05-13T04:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。