論文の概要: Fast and accurate factorized neural transducer for text adaption of
end-to-end speech recognition models
- arxiv url: http://arxiv.org/abs/2212.01992v1
- Date: Mon, 5 Dec 2022 02:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:26:43.469652
- Title: Fast and accurate factorized neural transducer for text adaption of
end-to-end speech recognition models
- Title(参考訳): エンドツーエンド音声認識モデルのテキスト適応のための高速・高精度分解型ニューラルトランスデューサ
- Authors: Rui Zhao, Jian Xue, Partha Parthasarathy, Veljko Miljanic, Jinyu Li
- Abstract要約: テキストのみの適応データに対するFNT(Facterized Neural Transducer)の適応性の向上は、標準のニューラルトランスデューサモデルと比較して精度の低下を招いた。
これらのアプローチを組み合わせることで、標準のFNTモデルから比較的単語エラー率を9.48%削減できる。
- 参考スコア(独自算出の注目度): 23.21666928497697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural transducer is now the most popular end-to-end model for speech
recognition, due to its naturally streaming ability. However, it is challenging
to adapt it with text-only data. Factorized neural transducer (FNT) model was
proposed to mitigate this problem. The improved adaptation ability of FNT on
text-only adaptation data came at the cost of lowered accuracy compared to the
standard neural transducer model. We propose several methods to improve the
performance of the FNT model. They are: adding CTC criterion during training,
adding KL divergence loss during adaptation, using a pre-trained language model
to seed the vocabulary predictor, and an efficient adaptation approach by
interpolating the vocabulary predictor with the n-gram language model. A
combination of these approaches results in a relative word-error-rate reduction
of 9.48\% from the standard FNT model. Furthermore, n-gram interpolation with
the vocabulary predictor improves the adaptation speed hugely with satisfactory
adaptation performance.
- Abstract(参考訳): ニューラルトランスデューサは、その自然なストリーミング能力のため、音声認識の最も人気のあるエンドツーエンドモデルである。
しかし、テキストのみのデータで適応することは困難である。
この問題を緩和するためにFNTモデルが提案された。
テキストのみの適応データに対するFNTの適応性の向上は、標準的なニューラルトランスデューサモデルと比較して精度の低下を招いた。
FNTモデルの性能向上のためのいくつかの手法を提案する。
トレーニング中にCTC基準を追加し、適応中にKL分散損失を追加し、事前訓練された言語モデルを用いて語彙予測をシードし、n-gram言語モデルと語彙予測を補間することで効率よく適応する。
これらの手法を組み合わせることで、標準FNTモデルから単語エラー率を9.48\%削減する。
さらに、語彙予測器とのn-gram補間により、適応性能が良好に向上する。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Improved Factorized Neural Transducer Model For text-only Domain Adaptation [14.65352101664147]
エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。
Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。
本稿では、音響情報と言語情報を包括的に統合した改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:02:04Z) - External Language Model Integration for Factorized Neural Transducers [7.5969913968845155]
外部言語モデルを用いた因子化ニューラルトランスデューサ(FNT)の適応法を提案する。
その結果, 各シナリオにおける語彙順応と, 1つのエンティティリッチシナリオにおける最大60%のWERRの加算ゲインで平均18%のWERRが得られた。
論文 参考訳(メタデータ) (2023-05-26T23:30:21Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。