論文の概要: Language model fusion for streaming end to end speech recognition
- arxiv url: http://arxiv.org/abs/2104.04487v1
- Date: Fri, 9 Apr 2021 17:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 15:15:42.173505
- Title: Language model fusion for streaming end to end speech recognition
- Title(参考訳): エンド・エンド音声認識のための言語モデル融合
- Authors: Rodrigo Cabrera, Xiaofeng Liu, Mohammadreza Ghodsi, Zebulun Matteson,
Eugene Weinstein, Anjuli Kannan
- Abstract要約: 本稿では,未ペアテキストデータに基づく言語モデル(LM)を提案し,エンドツーエンド(E2E)モデルを強化する。
我々は、ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)への浅部核融合と冷間核融合アプローチを拡張した
その結果,これらの融合手法は,外部言語的特徴の導入により,ストリーミングrnntの性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 14.205877070952258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming processing of speech audio is required for many contemporary
practical speech recognition tasks. Even with the large corpora of manually
transcribed speech data available today, it is impossible for such corpora to
cover adequately the long tail of linguistic content that's important for tasks
such as open-ended dictation and voice search. We seek to address both the
streaming and the tail recognition challenges by using a language model (LM)
trained on unpaired text data to enhance the end-to-end (E2E) model. We extend
shallow fusion and cold fusion approaches to streaming Recurrent Neural Network
Transducer (RNNT), and also propose two new competitive fusion approaches that
further enhance the RNNT architecture. Our results on multiple languages with
varying training set sizes show that these fusion methods improve streaming
RNNT performance through introducing extra linguistic features. Cold fusion
works consistently better on streaming RNNT with up to a 8.5% WER improvement.
- Abstract(参考訳): 音声のストリーム処理は多くの現代的な音声認識タスクに必要である。
今日手書き音声データの大規模なコーパスが利用可能であるにもかかわらず、そのようなコーパスは、オープン・エンド・ディクテーションや音声検索といったタスクにおいて重要な言語内容の長い尾を適切にカバーすることは不可能である。
我々は,非ペアテキストデータにトレーニングされた言語モデル(lm)を用いて,エンドツーエンド(e2e)モデルを強化することで,ストリーミングとテール認識の両方の課題に対処しようとする。
我々は,ストリーミング・リカレントニューラルネットワークトランスデューサ (rnnt) への浅層核融合法と低温核融合法を拡張し,rnntアーキテクチャをさらに強化する2つの新しい競合核融合法を提案する。
異なるトレーニングセットサイズを持つ複数の言語に対する実験結果から,これらの融合手法は言語的特徴を付加することにより,RNNTのストリーミング性能を向上させることが示された。
cold fusionはストリーミングrnntで一貫して機能し、最大8.5%改善されている。
関連論文リスト
- Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。
本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文 参考訳(メタデータ) (2024-08-05T16:47:22Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。