論文の概要: Improved Factorized Neural Transducer Model For text-only Domain Adaptation
- arxiv url: http://arxiv.org/abs/2309.09524v2
- Date: Thu, 6 Jun 2024 09:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:49:21.078564
- Title: Improved Factorized Neural Transducer Model For text-only Domain Adaptation
- Title(参考訳): テキストのみの領域適応のための分解型ニューラルトランスデューサモデルの改良
- Authors: Junzhe Liu, Jianwei Yu, Xie Chen,
- Abstract要約: エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。
Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。
本稿では、音響情報と言語情報を包括的に統合した改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
- 参考スコア(独自算出の注目度): 14.65352101664147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting End-to-End ASR models to out-of-domain datasets with text data is challenging. Factorized neural Transducer (FNT) aims to address this issue by introducing a separate vocabulary decoder to predict the vocabulary. Nonetheless, this approach has limitations in fusing acoustic and language information seamlessly. Moreover, a degradation in word error rate (WER) on the general test sets was also observed, leading to doubts about its overall performance. In response to this challenge, we present the improved factorized neural Transducer (IFNT) model structure designed to comprehensively integrate acoustic and language information while enabling effective text adaptation. We assess the performance of our proposed method on English and Mandarin datasets. The results indicate that IFNT not only surpasses the neural Transducer and FNT in baseline performance in both scenarios but also exhibits superior adaptation ability compared to FNT. On source domains, IFNT demonstrated statistically significant accuracy improvements, achieving a relative enhancement of 1.2% to 2.8% in baseline accuracy compared to the neural Transducer. On out-of-domain datasets, IFNT shows relative WER(CER) improvements of up to 30.2% over the standard neural Transducer with shallow fusion, and relative WER(CER) reductions ranging from 1.1% to 2.8% on test sets compared to the FNT model.
- Abstract(参考訳): エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。
Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。
それにもかかわらず、このアプローチは音響情報と言語情報をシームレスに融合する際の制限がある。
さらに、一般的なテストセットにおける単語誤り率(WER)の低下も観察され、全体的な性能に疑問が持たれた。
この課題に対応するために,音と言語情報を包括的に統合し,効果的なテキスト適応を実現するために設計された改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
提案手法の性能を英語とマンダリンのデータセットで評価する。
その結果,IFNTはニューラルトランスデューサやFNTに勝るだけでなく,FNTよりも優れた適応能力を示すことがわかった。
ソースドメインでは、IFNTは統計学的に有意な精度の向上を示し、ニューラルトランスデューサに比べてベースライン精度が1.2%から2.8%向上した。
ドメイン外のデータセットでは、IFNTは、標準ニューラルトランスデューサよりも30.2%の相対的なWER(CER)改善と、FNTモデルと比較してテストセットの1.1%から2.8%の相対的なWER(CER)削減を示している。
関連論文リスト
- Advancing Text-to-GLOSS Neural Translation Using a Novel Hyper-parameter
Optimization Technique [0.0]
この研究は、ニューラルネットワーク翻訳生成GLOSSの精度と頻度を改善することを目的としている。
PHOENIX14Tデータセットで実施された実験では、最適なトランスフォーマーアーキテクチャが、同じデータセットでの以前の作業よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-09-05T11:59:31Z) - External Language Model Integration for Factorized Neural Transducers [7.5969913968845155]
外部言語モデルを用いた因子化ニューラルトランスデューサ(FNT)の適応法を提案する。
その結果, 各シナリオにおける語彙順応と, 1つのエンティティリッチシナリオにおける最大60%のWERRの加算ゲインで平均18%のWERRが得られた。
論文 参考訳(メタデータ) (2023-05-26T23:30:21Z) - Fast and accurate factorized neural transducer for text adaption of
end-to-end speech recognition models [23.21666928497697]
テキストのみの適応データに対するFNT(Facterized Neural Transducer)の適応性の向上は、標準のニューラルトランスデューサモデルと比較して精度の低下を招いた。
これらのアプローチを組み合わせることで、標準のFNTモデルから比較的単語エラー率を9.48%削減できる。
論文 参考訳(メタデータ) (2022-12-05T02:52:21Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - TextGNN: Improving Text Encoder via Graph Neural Network in Sponsored
Search [11.203006652211075]
本稿では,ユーザの履歴行動から補完するグラフ情報を用いて,強いツインタワー構造エンコーダを自然に拡張するtextgnnモデルを提案する。
オフライン実験では、ロングテール低周波広告の精度が1%向上し、ROC-AUC全体の0.14%の増加を達成する。
オンラインa/bテストでは、1ミルあたりの収益が2.03%増加し、広告欠陥率は2.32%減少した。
論文 参考訳(メタデータ) (2021-01-15T23:12:47Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。