論文の概要: Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers
- arxiv url: http://arxiv.org/abs/2104.09426v1
- Date: Mon, 19 Apr 2021 16:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:03:14.020620
- Title: Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers
- Title(参考訳): 文脈拡張変換器を用いた高次長コンテキストエンドツーエンド音声認識
- Authors: Takaaki Hori, Niko Moritz, Chiori Hori, Jonathan Le Roux
- Abstract要約: コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
- 参考スコア(独自算出の注目度): 56.56220390953412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses end-to-end automatic speech recognition (ASR) for long
audio recordings such as lecture and conversational speeches. Most end-to-end
ASR models are designed to recognize independent utterances, but contextual
information (e.g., speaker or topic) over multiple utterances is known to be
useful for ASR. In our prior work, we proposed a context-expanded Transformer
that accepts multiple consecutive utterances at the same time and predicts an
output sequence for the last utterance, achieving 5-15% relative error
reduction from utterance-based baselines in lecture and conversational ASR
benchmarks. Although the results have shown remarkable performance gain, there
is still potential to further improve the model architecture and the decoding
process. In this paper, we extend our prior work by (1) introducing the
Conformer architecture to further improve the accuracy, (2) accelerating the
decoding process with a novel activation recycling technique, and (3) enabling
streaming decoding with triggered attention. We demonstrate that the extended
Transformer provides state-of-the-art end-to-end ASR performance, obtaining a
17.3% character error rate for the HKUST dataset and 12.0%/6.3% word error
rates for the Switchboard-300 Eval2000 CallHome/Switchboard test sets. The new
decoding method reduces decoding time by more than 50% and further enables
streaming ASR with limited accuracy degradation.
- Abstract(参考訳): 本稿では,講義や会話音声などの長音録音におけるエンドツーエンド自動音声認識(asr)について述べる。
ほとんどのエンドツーエンドのASRモデルは独立した発話を認識するように設計されているが、複数の発話に対する文脈情報(話者や話題など)はASRにとって有用であることが知られている。
本稿では,複数の連続発話を同時に受け取り,最後の発話の出力シーケンスを予測し,講義および会話ASRベンチマークにおける発話ベースラインからの相対誤差を5~15%削減するコンテキスト拡張変換器を提案する。
結果は顕著なパフォーマンス向上を示しているが、モデルアーキテクチャとデコードプロセスをさらに改善する可能性はまだ残っている。
本稿では,(1)コンバータアーキテクチャを導入して精度を向上し,(2)新しい再生リサイクル技術により復号処理を高速化し,(3)注意を喚起したストリーミング復号を可能にすることによって,従来の作業を拡張する。
この拡張トランスフォーマーは,HKUSTデータセットに対する17.3%の文字誤り率と,Switchboard-300 Eval2000 CallHome/Switchboardテストセットに対する12.0%/6.3%の単語エラー率が得られる。
新たな復号法はデコーディング時間を50%以上削減し、より少ない精度でストリーミングasrを可能にする。
関連論文リスト
- Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Data Augmentation for End-to-end Code-switching Speech Recognition [54.0507000473827]
コードスイッチングデータ拡張のための3つの新しいアプローチが提案されている。
既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTS。
200時間のMandarin-Britishコードスイッチングデータセットの実験では、コードスイッチングASRを個別に大幅に改善した。
論文 参考訳(メタデータ) (2020-11-04T07:12:44Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。