論文の概要: End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system
- arxiv url: http://arxiv.org/abs/2202.09003v1
- Date: Fri, 18 Feb 2022 03:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:20:29.102908
- Title: End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system
- Title(参考訳): ハイブリッドctc/attentionシステムにおける後部分布適応に基づくエンドツーエンドコンテキストアサー
- Authors: Zhengyi Zhang, Pan Zhou
- Abstract要約: エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
- 参考スコア(独自算出の注目度): 61.148549738631814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) speech recognition architectures assemble all components of
traditional speech recognition system into a single model. Although it
simplifies ASR system, it introduces contextual ASR drawback: the E2E model has
worse performance on utterances containing infrequent proper nouns. In this
work, we propose to add a contextual bias attention (CBA) module to attention
based encoder decoder (AED) model to improve its ability of recognizing the
contextual phrases. Specifically, CBA utilizes the context vector of source
attention in decoder to attend to a specific bias embedding. Jointly learned
with the basic AED parameters, CBA can tell the model when and where to bias
its output probability distribution. At inference stage, a list of bias phrases
is preloaded and we adapt the posterior distributions of both CTC and attention
decoder according to the attended bias phrase of CBA. We evaluate the proposed
method on GigaSpeech and achieve a consistent relative improvement on recall
rate of bias phrases ranging from 15% to 28% compared to the baseline model.
Meanwhile, our method shows a strong anti-bias ability as the performance on
general tests only degrades 1.7% even 2,000 bias phrases are present.
- Abstract(参考訳): エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本研究では,aed(aware based encoder decoder)モデルに文脈バイアス注意(cba)モジュールを追加し,文脈句認識能力を向上させることを提案する。
具体的には、cbaは特定のバイアス埋め込みに対応するためにデコーダのソース注意のコンテキストベクトルを利用する。
基本的なAEDパラメータと共同で学習し、CBAはその出力確率分布をいつ、どこでバイアスするかをモデルに示すことができる。
推論段階では, バイアス句のリストをプリロードし, CBAの随伴バイアス句に従って, CTCとアテンションデコーダの両方の後方分布を適応させる。
提案手法をgigaaspeechで評価し,ベースラインモデルと比較して15%から28%のバイアスフレーズのリコール率の相対的改善を両立させた。
一方,本手法は,一般試験における性能が1.7%,2000のバイアスフレーズしか存在しないため,強い抗バイアス能力を示す。
関連論文リスト
- XCB: an effective contextual biasing approach to bias cross-lingual phrases in speech recognition [9.03519622415822]
本研究では,言語間コンテキストバイアス(XCB)モジュールを提案する。
我々は、補助言語バイアスモジュールと言語固有の損失を統合することで、支配言語のための事前訓練されたASRモデルを強化する。
社内のコードスイッチングデータセットで行った実験結果から,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-08-20T04:00:19Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Improving Contextual Spelling Correction by External Acoustics Attention
and Semantic Aware Data Augmentation [31.408074817254732]
本稿では,E2Eニューラルトランスデューサを用いたASRシステムにおける文脈バイアスに対する非自己回帰スペル補正モデルを提案する。
音声情報に外部の注意を払い、テキスト仮説をCSCに組み込んで、目的語句と相違語句や無関係語句とをよりよく区別する。
実験により、改良された手法は、ベースラインのASR+Biasingシステムよりも20.3%の相対的な名前リコールゲインで優れていることが示された。
論文 参考訳(メタデータ) (2023-02-22T08:00:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition [14.815422751109061]
コンテキストバイアスをより制御可能な方法でサポートするCIF(Continuous Integration-and-fire)ベースのモデルを提案する。
追加のコンテキスト処理ネットワークを導入し、コンテキスト埋め込みを抽出し、音響的に関連するコンテキスト情報を統合し、コンテキスト出力分布をデコードする。
提案手法は, 強ベースラインと比較して, 相対的文字誤り率 (CER) の8.83%/21.13%, 相対的名前付きエンティティ文字誤り率 (NE-CER) の40.14%/51.50%削減を実現する。
論文 参考訳(メタデータ) (2020-12-17T09:40:11Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。