論文の概要: Improved Factorized Neural Transducer Model For text-only Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2309.09524v1
- Date: Mon, 18 Sep 2023 07:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:40:45.411133
- Title: Improved Factorized Neural Transducer Model For text-only Domain
Adaptation
- Title(参考訳): テキストのみの領域適応のための分解型ニューラルトランスデューサモデルの改良
- Authors: Junzhe Liu, Jianwei Yu, Xie Chen
- Abstract要約: 本稿では,音響情報と言語情報を包括的に統合するための改良された分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
IFNTは、浅い核融合を持つ標準ニューラルトランスデューサよりも7.9%から28.5%の相対的なWER改善をもたらす。
- 参考スコア(独自算出の注目度): 16.469089121995363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models, such as the neural Transducer, have been successful in
integrating acoustic and linguistic information jointly to achieve excellent
recognition performance. However, adapting these models with text-only data is
challenging. Factorized neural Transducer (FNT) aims to address this issue by
introducing a separate vocabulary decoder to predict the vocabulary, which can
effectively perform traditional text data adaptation. Nonetheless, this
approach has limitations in fusing acoustic and language information
seamlessly. Moreover, a degradation in word error rate (WER) on the general
test sets was also observed, leading to doubts about its overall performance.
In response to this challenge, we present an improved factorized neural
Transducer (IFNT) model structure designed to comprehensively integrate
acoustic and language information while enabling effective text adaptation. We
evaluate the performance of our proposed methods through in-domain experiments
on GigaSpeech and out-of-domain experiments adapting to EuroParl, TED-LIUM, and
Medical datasets. After text-only adaptation, IFNT yields 7.9% to 28.5%
relative WER improvements over the standard neural Transducer with shallow
fusion, and relative WER reductions ranging from 1.6% to 8.2% on the three test
sets compared to the FNT model.
- Abstract(参考訳): ニューラルトランスデューサなどのエンドツーエンドモデルでは、音響情報と言語情報の統合が成功し、優れた認識性能を達成している。
しかし、これらのモデルをテキストのみのデータで適用することは困難である。
Factorized Neural Transducer (FNT) は、従来のテキストデータ適応を効果的に実行可能な語彙予測のための別個の語彙デコーダを導入することで、この問題に対処することを目指している。
それにもかかわらず、このアプローチは音響情報と言語情報をシームレスに融合する制限がある。
さらに、一般的なテストセットにおける単語誤り率(WER)の低下も観察され、全体的な性能に疑問が生じた。
この課題に対応するために,音と言語情報を包括的に統合し,効果的なテキスト適応を実現するための改良された分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
提案手法の性能評価は,GigaSpeechのドメイン内実験とEuroParl,TED-Lium,医療データセットに対応するドメイン外実験を用いて行った。
テキストのみの適応の後、IFNTは標準のニューラルトランスデューサよりも7.9%から28.5%の相対的なWER改善を実現し、FNTモデルと比較して3つのテストセットで1.6%から8.2%の相対的なWER削減を実現した。
関連論文リスト
- Advancing Text-to-GLOSS Neural Translation Using a Novel Hyper-parameter
Optimization Technique [0.0]
この研究は、ニューラルネットワーク翻訳生成GLOSSの精度と頻度を改善することを目的としている。
PHOENIX14Tデータセットで実施された実験では、最適なトランスフォーマーアーキテクチャが、同じデータセットでの以前の作業よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-09-05T11:59:31Z) - External Language Model Integration for Factorized Neural Transducers [7.5969913968845155]
外部言語モデルを用いた因子化ニューラルトランスデューサ(FNT)の適応法を提案する。
その結果, 各シナリオにおける語彙順応と, 1つのエンティティリッチシナリオにおける最大60%のWERRの加算ゲインで平均18%のWERRが得られた。
論文 参考訳(メタデータ) (2023-05-26T23:30:21Z) - Fast and accurate factorized neural transducer for text adaption of
end-to-end speech recognition models [23.21666928497697]
テキストのみの適応データに対するFNT(Facterized Neural Transducer)の適応性の向上は、標準のニューラルトランスデューサモデルと比較して精度の低下を招いた。
これらのアプローチを組み合わせることで、標準のFNTモデルから比較的単語エラー率を9.48%削減できる。
論文 参考訳(メタデータ) (2022-12-05T02:52:21Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - TextGNN: Improving Text Encoder via Graph Neural Network in Sponsored
Search [11.203006652211075]
本稿では,ユーザの履歴行動から補完するグラフ情報を用いて,強いツインタワー構造エンコーダを自然に拡張するtextgnnモデルを提案する。
オフライン実験では、ロングテール低周波広告の精度が1%向上し、ROC-AUC全体の0.14%の増加を達成する。
オンラインa/bテストでは、1ミルあたりの収益が2.03%増加し、広告欠陥率は2.32%減少した。
論文 参考訳(メタデータ) (2021-01-15T23:12:47Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。