論文の概要: Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.04862v4
- Date: Thu, 6 Aug 2020 01:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:39:29.934321
- Title: Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition
- Title(参考訳): 注意深い聞き取りと1回の綴り:低遅延音声認識のための非自己回帰的アーキテクチャによる全文生成
- Authors: Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai
Zhang
- Abstract要約: 我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
- 参考スコア(独自算出の注目度): 66.47000813920619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although attention based end-to-end models have achieved promising
performance in speech recognition, the multi-pass forward computation in
beam-search increases inference time cost, which limits their practical
applications. To address this issue, we propose a non-autoregressive end-to-end
speech recognition system called LASO (listen attentively, and spell once).
Because of the non-autoregressive property, LASO predicts a textual token in
the sequence without the dependence on other tokens. Without beam-search, the
one-pass propagation much reduces inference time cost of LASO. And because the
model is based on the attention based feedforward structure, the computation
can be implemented in parallel efficiently. We conduct experiments on publicly
available Chinese dataset AISHELL-1. LASO achieves a character error rate of
6.4%, which outperforms the state-of-the-art autoregressive transformer model
(6.7%). The average inference latency is 21 ms, which is 1/50 of the
autoregressive transformer model.
- Abstract(参考訳): 注目に基づくエンドツーエンドモデルは音声認識において有望な性能を達成しているが、ビーム探索におけるマルチパスフォワード計算は推論時間コストを増大させ、実用的な応用を制限している。
この問題に対処するために,LASO (listen attentively, and spell once) と呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、lasoはシーケンス内のテキストトークンを他のトークンに依存しずに予測する。
ビーム探索がなければ、1パスの伝搬はlasoの推論時間コストを大幅に削減する。
また,本モデルは注意に基づくフィードフォワード構造に基づいており,並列処理を効率的に行うことができる。
我々は,中国における公開データセットAISHELL-1の実験を行った。
LASOの文字誤り率は6.4%で、最先端の自己回帰変換器モデル(6.7%)を上回っている。
平均推定遅延は21msであり、これは自己回帰トランスフォーマーモデルの1/50である。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。