論文の概要: HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.06328v1
- Date: Wed, 13 Apr 2022 12:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 17:24:57.006083
- Title: HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition
- Title(参考訳): HuBERT-EE:効率的な音声認識のための初期出力HuBERT
- Authors: Ji Won Yoon, Beom Jun Woo, and Nam Soo Kim
- Abstract要約: 本稿では,モデルが推論を動的に停止することを可能にする早期終了方式,すなわち HuBERT-EE を提案する。
LibriSpeechデータセットの実験結果から,HuBERT-EEは単語誤り率(WER)とレイテンシのトレードオフを同時にバランスしながら,大規模HuBERTモデルの推論を高速化できることがわかった。
- 参考スコア(独自算出の注目度): 9.290757451344673
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-training with self-supervised models, such as Hidden-unit BERT (HuBERT)
and wav2vec 2.0, has brought significant improvements in automatic speech
recognition (ASR). However, these models usually require an expensive
computational cost to achieve outstanding performance, slowing down the
inference speed. To improve the model efficiency, we propose an early exit
scheme for ASR, namely HuBERT-EE, that allows the model to stop the inference
dynamically. In HuBERT-EE, multiple early exit branches are added at the
intermediate layers, and each branch is used to decide whether a prediction can
be exited early. Experimental results on the LibriSpeech dataset show that
HuBERT-EE can accelerate the inference of a large-scale HuBERT model while
simultaneously balancing the trade-off between the word error rate (WER)
performance and the latency.
- Abstract(参考訳): Hidden-unit BERT (HuBERT) やwav2vec 2.0のような自己教師型モデルによる事前トレーニングは、自動音声認識(ASR)に大きな改善をもたらした。
しかしながら、これらのモデルは通常、優れた性能を達成するために高価な計算コストを必要とし、推論速度を遅くする。
モデル効率を改善するために,モデルが推論を動的に停止できる早期終了方式,すなわち HuBERT-EE を提案する。
HuBERT-EEでは、中間層に複数の早期出口分岐を追加し、各分岐を使用して予測が早期に終了できるかどうかを決定する。
LibriSpeechデータセットの実験結果から,HuBERT-EEは単語誤り率(WER)とレイテンシのトレードオフを同時にバランスしながら,大規模HuBERTモデルの推論を高速化できることがわかった。
関連論文リスト
- MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文 参考訳(メタデータ) (2024-06-09T06:30:28Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - CEEBERT: Cross-Domain Inference in Early Exit BERT [5.402030962296633]
CeeBERTは、中間層で観測されたドメイン固有の信頼度から最適な閾値を学習する。
CeeBERTは、BERT/ALBERTモデルを最小限の精度で、$2times$ -3.5times$でスピードアップすることができる。
論文 参考訳(メタデータ) (2024-05-23T20:36:10Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Elbert: Fast Albert with Confidence-Window Based Early Exit [8.956309416589232]
BERTのような大規模な事前訓練された言語モデルは、リソース制約やリアルタイムアプリケーションには適していない。
ELBERTは,提案した信頼ウィンドウに基づく早期出口機構により,ALBERTと比較して平均推定速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T02:02:39Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。