論文の概要: HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.06328v2
- Date: Wed, 19 Jun 2024 16:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 11:31:36.928829
- Title: HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition
- Title(参考訳): HuBERT-EE:効率的な音声認識のための初期出力HuBERT
- Authors: Ji Won Yoon, Beom Jun Woo, Nam Soo Kim,
- Abstract要約: 我々は、モデルが推論を動的に停止することを可能にするASRの早期終了スキーム、すなわちHuBERT-EEを導入する。
LibriSpeechの実験結果によると、HuBERT-EEは性能とレイテンシのトレードオフを同時にバランスしながら、HuBERTの推論を加速できる。
- 参考スコア(独自算出の注目度): 11.243855639847514
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-training with self-supervised models, such as Hidden-unit BERT (HuBERT) and wav2vec 2.0, has brought significant improvements in automatic speech recognition (ASR). However, these models usually require an expensive computational cost to achieve outstanding performance, slowing down the inference speed. To improve the model efficiency, we introduce an early exit scheme for ASR, namely HuBERT-EE, that allows the model to stop the inference dynamically. In HuBERT-EE, multiple early exit branches are added at the intermediate layers. When the intermediate prediction of the early exit branch is confident, the model stops the inference, and the corresponding result can be returned early. We investigate the proper early exiting criterion and fine-tuning strategy to effectively perform early exiting. Experimental results on the LibriSpeech show that HuBERT-EE can accelerate the inference of the HuBERT while simultaneously balancing the trade-off between the performance and the latency.
- Abstract(参考訳): Hidden-unit BERT (HuBERT) やwav2vec 2.0のような自己教師型モデルによる事前トレーニングは、自動音声認識(ASR)に大きな改善をもたらした。
しかしながら、これらのモデルは通常、優れた性能を達成するために高価な計算コストを必要とし、推論速度を遅くする。
モデル効率を改善するために,モデルが推論を動的に停止できる早期終了方式,すなわち HuBERT-EE を導入する。
HuBERT-EEでは、中間層に複数の早期出口ブランチが追加される。
早期出口分岐の中間予測が確実である場合には、モデルが推論を停止し、対応する結果を早期に返すことができる。
早期退避を効果的に行うための適切な早期退避基準と微調整戦略について検討する。
LibriSpeechの実験結果によると、HuBERT-EEは性能とレイテンシのトレードオフを同時にバランスしながら、HuBERTの推論を加速できる。
関連論文リスト
- MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations [43.479279052047985]
MS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。
ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。
論文 参考訳(メタデータ) (2024-06-09T06:30:28Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - CEEBERT: Cross-Domain Inference in Early Exit BERT [5.402030962296633]
CeeBERTは、中間層で観測されたドメイン固有の信頼度から最適な閾値を学習する。
CeeBERTは、BERT/ALBERTモデルを最小限の精度で、$2times$ -3.5times$でスピードアップすることができる。
論文 参考訳(メタデータ) (2024-05-23T20:36:10Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Elbert: Fast Albert with Confidence-Window Based Early Exit [8.956309416589232]
BERTのような大規模な事前訓練された言語モデルは、リソース制約やリアルタイムアプリケーションには適していない。
ELBERTは,提案した信頼ウィンドウに基づく早期出口機構により,ALBERTと比較して平均推定速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T02:02:39Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。