論文の概要: Improved Factorized Neural Transducer Model For text-only Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2309.09524v1
- Date: Mon, 18 Sep 2023 07:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:40:45.411133
- Title: Improved Factorized Neural Transducer Model For text-only Domain
Adaptation
- Title(参考訳): テキストのみの領域適応のための分解型ニューラルトランスデューサモデルの改良
- Authors: Junzhe Liu, Jianwei Yu, Xie Chen
- Abstract要約: 本稿では,音響情報と言語情報を包括的に統合するための改良された分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
IFNTは、浅い核融合を持つ標準ニューラルトランスデューサよりも7.9%から28.5%の相対的なWER改善をもたらす。
- 参考スコア(独自算出の注目度): 16.469089121995363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models, such as the neural Transducer, have been successful in
integrating acoustic and linguistic information jointly to achieve excellent
recognition performance. However, adapting these models with text-only data is
challenging. Factorized neural Transducer (FNT) aims to address this issue by
introducing a separate vocabulary decoder to predict the vocabulary, which can
effectively perform traditional text data adaptation. Nonetheless, this
approach has limitations in fusing acoustic and language information
seamlessly. Moreover, a degradation in word error rate (WER) on the general
test sets was also observed, leading to doubts about its overall performance.
In response to this challenge, we present an improved factorized neural
Transducer (IFNT) model structure designed to comprehensively integrate
acoustic and language information while enabling effective text adaptation. We
evaluate the performance of our proposed methods through in-domain experiments
on GigaSpeech and out-of-domain experiments adapting to EuroParl, TED-LIUM, and
Medical datasets. After text-only adaptation, IFNT yields 7.9% to 28.5%
relative WER improvements over the standard neural Transducer with shallow
fusion, and relative WER reductions ranging from 1.6% to 8.2% on the three test
sets compared to the FNT model.
- Abstract(参考訳): ニューラルトランスデューサなどのエンドツーエンドモデルでは、音響情報と言語情報の統合が成功し、優れた認識性能を達成している。
しかし、これらのモデルをテキストのみのデータで適用することは困難である。
Factorized Neural Transducer (FNT) は、従来のテキストデータ適応を効果的に実行可能な語彙予測のための別個の語彙デコーダを導入することで、この問題に対処することを目指している。
それにもかかわらず、このアプローチは音響情報と言語情報をシームレスに融合する制限がある。
さらに、一般的なテストセットにおける単語誤り率(WER)の低下も観察され、全体的な性能に疑問が生じた。
この課題に対応するために,音と言語情報を包括的に統合し,効果的なテキスト適応を実現するための改良された分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
提案手法の性能評価は,GigaSpeechのドメイン内実験とEuroParl,TED-Lium,医療データセットに対応するドメイン外実験を用いて行った。
テキストのみの適応の後、IFNTは標準のニューラルトランスデューサよりも7.9%から28.5%の相対的なWER改善を実現し、FNTモデルと比較して3つのテストセットで1.6%から8.2%の相対的なWER削減を実現した。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Advancing Text-to-GLOSS Neural Translation Using a Novel Hyper-parameter
Optimization Technique [0.0]
この研究は、ニューラルネットワーク翻訳生成GLOSSの精度と頻度を改善することを目的としている。
PHOENIX14Tデータセットで実施された実験では、最適なトランスフォーマーアーキテクチャが、同じデータセットでの以前の作業よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-09-05T11:59:31Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Fast and accurate factorized neural transducer for text adaption of
end-to-end speech recognition models [23.21666928497697]
テキストのみの適応データに対するFNT(Facterized Neural Transducer)の適応性の向上は、標準のニューラルトランスデューサモデルと比較して精度の低下を招いた。
これらのアプローチを組み合わせることで、標準のFNTモデルから比較的単語エラー率を9.48%削減できる。
論文 参考訳(メタデータ) (2022-12-05T02:52:21Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - A Full Text-Dependent End to End Mispronunciation Detection and
Diagnosis with Easy Data Augmentation Techniques [28.59181595057581]
sed-mddとの違いである新しいテキスト依存モデルを提案する。
本論文では,モデルが誤発音音素を捕捉する能力を効果的に向上する3つの単純なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T03:11:41Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Syntactic Data Augmentation Increases Robustness to Inference Heuristics [27.513414694720716]
BERTのような事前訓練されたニューラルネットワークモデルは、標準データセットに対して高い精度を示すが、制御されたチャレンジセットに対する単語順序に対する感度の驚くべき欠如がある。
我々は,MNLIコーパスからの文に構文変換を適用して生成した構文的情報的例を用いて,標準学習セットを増強するいくつかの手法について検討する。
MNLIテストセットの性能に影響を与えることなく、単語の順序に対する感度を0.28から0.73に診断する制御例におけるBERTの精度を改善した。
論文 参考訳(メタデータ) (2020-04-24T21:35:26Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。