論文の概要: Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling
- arxiv url: http://arxiv.org/abs/2010.06030v2
- Date: Wed, 27 Jan 2021 17:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:29:11.426909
- Title: Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling
- Title(参考訳): デュアルモードASR:フルコンテキストモデリングによるストリーミングASRの統合と改善
- Authors: Jiahui Yu, Wei Han, Anmol Gulati, Chung-Cheng Chiu, Bo Li, Tara N.
Sainath, Yonghui Wu, Ruoming Pang
- Abstract要約: 本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
- 参考スコア(独自算出の注目度): 76.43479696760996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming automatic speech recognition (ASR) aims to emit each hypothesized
word as quickly and accurately as possible, while full-context ASR waits for
the completion of a full speech utterance before emitting completed hypotheses.
In this work, we propose a unified framework, Dual-mode ASR, to train a single
end-to-end ASR model with shared weights for both streaming and full-context
speech recognition. We show that the latency and accuracy of streaming ASR
significantly benefit from weight sharing and joint training of full-context
ASR, especially with inplace knowledge distillation during the training. The
Dual-mode ASR framework can be applied to recent state-of-the-art
convolution-based and transformer-based ASR networks. We present extensive
experiments with two state-of-the-art ASR networks, ContextNet and Conformer,
on two datasets, a widely used public dataset LibriSpeech and a large-scale
dataset MultiDomain. Experiments and ablation studies demonstrate that
Dual-mode ASR not only simplifies the workflow of training and deploying
streaming and full-context ASR models, but also significantly improves both
emission latency and recognition accuracy of streaming ASR. With Dual-mode ASR,
we achieve new state-of-the-art streaming ASR results on both LibriSpeech and
MultiDomain in terms of accuracy and latency.
- Abstract(参考訳): ストリーム自動音声認識(ASR)は、仮説化された単語をできるだけ迅速かつ正確に出力することを目的としており、フルコンテキストのASRは完全な発話が完了するのを待ちながら、完了した仮説を出力する。
本研究では,ストリーミングとフルコンテキスト音声認識の両面での重みを共有した単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
ストリーミングASRのレイテンシと精度は,特にトレーニング中の知識蒸留において,フルコンテクストASRの重み付けと共同トレーニングのメリットが顕著に示された。
Dual-mode ASRフレームワークは、最近の最先端の畳み込みベースおよびトランスフォーマーベースのASRネットワークに適用できる。
我々は、広く使われている公開データセットLibriSpeechと大規模データセットMultiDomainの2つのデータセット上で、最先端のASRネットワークであるContextNetとConformerの2つの実験を行った。
実験とアブレーション実験により、Dual-mode ASRはトレーニングやストリーミングおよびフルコンテキストのASRモデルのデプロイのワークフローを単純化するだけでなく、出力遅延とストリーミングASRの認識精度を大幅に改善することが示された。
Dual-mode ASRでは、精度とレイテンシの観点から、LibriSpeechとMultiDomainの両方で最先端のストリーミングASR結果が得られる。
関連論文リスト
- AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource [84.74855803555677]
我々はAnySRを導入し、既存の任意のスケールのSRメソッドを任意のソース実装に再構築する。
私たちのAnySRは、1)任意のスケールタスクを任意のリソース実装として構築し、追加のパラメータなしで小さなスケールのリソース要件を減らします。
その結果,AnySR は SISR タスクをより効率的な計算方法で実装し,既存の任意のスケールの SISR メソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-05T04:00:14Z) - Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation [44.94458898538114]
マルチデコーダと知識蒸留に基づくストリーミングと非ストリーミングASRの連成最適化を提案する。
評価の結果,ストリーミングASRのCSJでは2.6%-5.3%,ストリーミングASRでは8.3%-9.7%,非ストリーミングASRでは8.3%-9.7%であった。
論文 参考訳(メタデータ) (2024-05-22T10:17:30Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Learning a Dual-Mode Speech Recognition Model via Self-Pruning [18.248552732790852]
本研究の目的は、小型のデバイスオンデバイスストリーミングASRモデルと、大規模なサーバ非ストリーミングモデルとを1つのスーパーネットで共同で学習することである。
本稿では、wav2vec 2.0の自己教師型学習と教師型ASRファインチューニングの両方でスーパーネットトレーニングを行うことで、従来の作業のように大規模な非ストリーミングモデルを大幅に改善できるだけでなく、コンパクトなスパースストリーミングモデルも改善できることを示す。
論文 参考訳(メタデータ) (2022-07-25T05:03:13Z) - CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming
ASR [17.999404155015647]
音声認識のための新しいフレームワーク、チャンキング, 未来コンテキスト, 復号化(CUSIDE)を提案する。
将来のコンテキストを待つことなく、将来のコンテキストフレームをシミュレートするために、新しいシミュレーションモジュールが導入された。
実験により、現実のフレームを適切なコンテキストとして使用するのに対し、シミュレーションされた将来のコンテキストを使用すると、認識精度を維持しながら遅延を大幅に低減できることが示された。
論文 参考訳(メタデータ) (2022-03-31T02:28:48Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。