論文の概要: Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems
- arxiv url: http://arxiv.org/abs/2206.14623v1
- Date: Wed, 29 Jun 2022 13:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 21:07:22.169945
- Title: Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems
- Title(参考訳): 逐次ASRシステムへの系列に基づく言語モデルの文脈密度比
- Authors: Jes\'us Andr\'es-Ferrer and Dario Albesano and Puming Zhan and Paul
Vozila
- Abstract要約: 本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
- 参考スコア(独自算出の注目度): 2.4909170697740963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-2-end (E2E) models have become increasingly popular in some ASR tasks
because of their performance and advantages. These E2E models directly
approximate the posterior distribution of tokens given the acoustic inputs.
Consequently, the E2E systems implicitly define a language model (LM) over the
output tokens, which makes the exploitation of independently trained language
models less straightforward than in conventional ASR systems. This makes it
difficult to dynamically adapt E2E ASR system to contextual profiles for better
recognizing special words such as named entities. In this work, we propose a
contextual density ratio approach for both training a contextual aware E2E
model and adapting the language model to named entities. We apply the
aforementioned technique to an E2E ASR system, which transcribes doctor and
patient conversations, for better adapting the E2E system to the names in the
conversations. Our proposed technique achieves a relative improvement of up to
46.5% on the names over an E2E baseline without degrading the overall
recognition accuracy of the whole test set. Moreover, it also surpasses a
contextual shallow fusion baseline by 22.1 % relative.
- Abstract(参考訳): エンド-2エンド(E2E)モデルは、性能とアドバンテージのため、一部のASRタスクで人気が高まっている。
これらのE2Eモデルは、音響入力が与えられたトークンの後方分布を直接近似する。
その結果、E2Eシステムは出力トークン上の言語モデル(LM)を暗黙的に定義し、独立的に訓練された言語モデルの活用は従来のASRシステムよりも容易でない。
これにより、E2E ASRシステムをコンテキストプロファイルに動的に適応させることが難しくなり、名前付きエンティティのような特別な単語の認識がより良くなる。
本研究では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
以上の手法を医師や患者との会話の書き起こしを行うE2E ASRシステムに適用し、会話の名前にE2Eシステムを適用する。
提案手法は,e2eベースライン上の最大46.5%の相対的改善を,テストセット全体の認識精度を低下させることなく達成する。
さらに、コンテキストの浅い核融合のベースラインを22.1%上回っている。
関連論文リスト
- Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation [44.332577357986324]
Sen-SSumは文単位で音声文書からテキスト要約を生成する。
We present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum。
論文 参考訳(メタデータ) (2024-08-01T00:18:21Z) - Acoustic Model Fusion for End-to-end Speech Recognition [7.431401982826315]
音声認識システムは、音響モデル(AM)や言語モデル(LM)など、従来のASRコンポーネントをすべて暗黙的にモデル化する。
ドメインミスマッチに対処するために,外部AMをE2Eシステムに統合することを提案する。
単語エラー率の大幅な削減を実現し、様々なテストセットで最大14.3%の大幅な低下を実現しました。
論文 参考訳(メタデータ) (2023-10-10T23:00:17Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Have best of both worlds: two-pass hybrid and E2E cascading framework
for speech recognition [71.30167252138048]
ハイブリッド・エンド・ツー・エンド(E2E)システムは音声認識結果に異なる誤りパターンを持つ。
本稿では,ハイブリッドモデルとE2Eモデルを組み合わせた2パスハイブリッドおよびE2Eカスケーディング(HEC)フレームワークを提案する。
提案システムでは,各システムに対して8~10%の単語誤り率削減を実現している。
論文 参考訳(メタデータ) (2021-10-10T20:11:38Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。