論文の概要: Acoustic Model Fusion for End-to-end Speech Recognition
- arxiv url: http://arxiv.org/abs/2310.07062v1
- Date: Tue, 10 Oct 2023 23:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:45:41.547676
- Title: Acoustic Model Fusion for End-to-end Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための音響モデル融合
- Authors: Zhihong Lei, Mingbin Xu, Shiyi Han, Leo Liu, Zhen Huang, Tim Ng,
Yuanyuan Zhang, Ernest Pusateri, Mirko Hannemann, Yaqiao Deng, Man-Hung Siu
- Abstract要約: 音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
- 参考スコア(独自算出の注目度): 7.431401982826315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning and automatic speech recognition (ASR) have
enabled the end-to-end (E2E) ASR system and boosted the accuracy to a new
level. The E2E systems implicitly model all conventional ASR components, such
as the acoustic model (AM) and the language model (LM), in a single network
trained on audio-text pairs. Despite this simpler system architecture, fusing a
separate LM, trained exclusively on text corpora, into the E2E system has
proven to be beneficial. However, the application of LM fusion presents certain
drawbacks, such as its inability to address the domain mismatch issue inherent
to the internal AM. Drawing inspiration from the concept of LM fusion, we
propose the integration of an external AM into the E2E system to better address
the domain mismatch. By implementing this novel approach, we have achieved a
significant reduction in the word error rate, with an impressive drop of up to
14.3% across varied test sets. We also discovered that this AM fusion approach
is particularly beneficial in enhancing named entity recognition.
- Abstract(参考訳): 近年のディープラーニングと音声認識(ASR)の進歩により、エンドツーエンド(E2E)のASRシステムが実現され、精度が新たなレベルに向上した。
E2Eシステムは、音響モデル(AM)や言語モデル(LM)などの従来のASRコンポーネントを、音声テキストペアで訓練された単一のネットワークで暗黙的にモデル化する。
この単純なシステムアーキテクチャにもかかわらず、テキストコーパスのみに訓練された別々のLMをE2Eシステムに融合させることは、有益であることが証明されている。
しかし、LM融合の適用は、内部AM固有のドメインミスマッチ問題に対処できないなど、ある種の欠点を生じさせる。
LM融合の概念からインスピレーションを得て,外部AMをE2Eシステムに統合してドメインミスマッチに対処する手法を提案する。
この新しいアプローチを実装することで、様々なテストセットで最大14.3%の印象的な低下で、単語エラー率を大幅に削減しました。
また,このAM融合アプローチは,エンティティ認識の強化に特に有用であることが判明した。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - An Effective End-to-End Modeling Approach for Mispronunciation Detection [12.113290059233977]
誤認識検出タスクに対するCTCAttention(CTCAttention)アプローチの新たな利用法を提案する。
また,テキストプロンプト情報による入力拡張を行い,結果のE2EモデルをMDタスクに適したものにする。
一連のマンダリンMD実験は、我々のアプローチが体系的および実質的な性能改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-05-18T03:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。