論文の概要: Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2405.13514v1
- Date: Wed, 22 May 2024 10:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 00:34:02.897166
- Title: Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation
- Title(参考訳): マルチデコーダと知識蒸留を用いたストリーム音声認識と非ストリーム音声認識の併用最適化
- Authors: Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe,
- Abstract要約: マルチデコーダと知識蒸留に基づくストリーミングと非ストリーミングASRの連成最適化を提案する。
評価の結果,ストリーミングASRのCSJでは2.6%-5.3%,ストリーミングASRでは8.3%-9.7%,非ストリーミングASRでは8.3%-9.7%であった。
- 参考スコア(独自算出の注目度): 44.94458898538114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) automatic speech recognition (ASR) can operate in two modes: streaming and non-streaming, each with its pros and cons. Streaming ASR processes the speech frames in real-time as it is being received, while non-streaming ASR waits for the entire speech utterance; thus, professionals may have to operate in either mode to satisfy their application. In this work, we present joint optimization of streaming and non-streaming ASR based on multi-decoder and knowledge distillation. Primarily, we study 1) the encoder integration of these ASR modules, followed by 2) separate decoders to make the switching mode flexible, and enhancing performance by 3) incorporating similarity-preserving knowledge distillation between the two modular encoders and decoders. Evaluation results show 2.6%-5.3% relative character error rate reductions (CERR) on CSJ for streaming ASR, and 8.3%-9.7% relative CERRs for non-streaming ASR within a single model compared to multiple standalone modules.
- Abstract(参考訳): エンドツーエンド(E2E)自動音声認識(ASR)はストリーミングと非ストリーミングの2つのモードで動作することができる。
ストリーミング ASR は受信された音声フレームをリアルタイムで処理し、非ストリーミング ASR は全音声の発声を待つ。
本研究では,マルチデコーダと知識蒸留に基づくストリーミングと非ストリーミングASRの協調最適化を提案する。
主に研究
1) これらのASRモジュールのエンコーダ統合
2)切り換えモードのフレキシブル化と性能向上のための分離デコーダ
3) 2つのモジュールエンコーダとデコーダの類似性保存知識蒸留を取り入れた。
評価結果によると、ストリーミングASRのCSJでは2.6%-5.3%の相対的な文字誤り率(CERR)が減少し、8.3%-9.7%の相対的なCERRは、複数のスタンドアロンモジュールと比較して単一のモデル内での非ストリーミングASRでは相対的なCERRが減少している。
関連論文リスト
- Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。