論文の概要: Efficient End-to-End Speech Recognition Using Performers in Conformers
- arxiv url: http://arxiv.org/abs/2011.04196v2
- Date: Wed, 11 Nov 2020 02:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:00:04.911472
- Title: Efficient End-to-End Speech Recognition Using Performers in Conformers
- Title(参考訳): コンフォーメータにおける演奏者を用いた効率的なエンドツーエンド音声認識
- Authors: Peidong Wang, DeLiang Wang
- Abstract要約: モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
- 参考スコア(独自算出の注目度): 74.71219757585841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device end-to-end speech recognition poses a high requirement on model
efficiency. Most prior works improve the efficiency by reducing model sizes. We
propose to reduce the complexity of model architectures in addition to model
sizes. More specifically, we reduce the floating-point operations in conformer
by replacing the transformer module with a performer. The proposed
attention-based efficient end-to-end speech recognition model yields
competitive performance on the LibriSpeech corpus with 10 millions of
parameters and linear computation complexity. The proposed model also
outperforms previous lightweight end-to-end models by about 20% relatively in
word error rate.
- Abstract(参考訳): デバイス上のエンドツーエンド音声認識は、モデル効率に高い要求をもたらす。
ほとんどの先行作業は、モデルサイズを小さくすることで効率を向上させる。
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
具体的には、トランスフォーマーモジュールをパフォーマーに置き換えることで、conformerの浮動小数点演算を削減する。
提案した注目に基づく効率的なエンドツーエンド音声認識モデルは,1000万のパラメータと線形計算複雑性を持つLibriSpeechコーパス上での競合性能を実現する。
提案モデルは、従来の軽量エンド・ツー・エンドモデルの約20%のワードエラー率を上回っている。
関連論文リスト
- ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。
本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T03:01:07Z) - Big model only for hard audios: Sample dependent Whisper model selection
for efficient inferences [7.592727209806414]
いくつかのASRモデルが様々なサイズに存在するが、推論コストが異なるため、性能レベルが異なる。
我々は、オーディオサンプルが与えられた場合、十分な最小のモデルを使用することで、良好な書き起こしにつながる決定モジュールを訓練することを提案する。
決定プロセスの計算効率を保ちながら,性能低下を低減し,計算コストを大幅に削減できる決定モジュールを構築した。
論文 参考訳(メタデータ) (2023-09-22T08:50:58Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。