論文の概要: Retraining-free Customized ASR for Enharmonic Words Based on a
Named-Entity-Aware Model and Phoneme Similarity Estimation
- arxiv url: http://arxiv.org/abs/2305.17846v1
- Date: Mon, 29 May 2023 02:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:17:12.358936
- Title: Retraining-free Customized ASR for Enharmonic Words Based on a
Named-Entity-Aware Model and Phoneme Similarity Estimation
- Title(参考訳): 名前付きエンティティ認識モデルと音素類似度推定に基づくエンハーモニック単語のリトレーニングフリーカスタマイズasr
- Authors: Yui Sudo, Kazuya Hata, Kazuhiro Nakadai
- Abstract要約: 本稿では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。
実験の結果,提案手法は従来のE2E-ASRモデルと比較して平均35.7%向上することがわかった。
- 参考スコア(独自算出の注目度): 0.742779257315787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end automatic speech recognition (E2E-ASR) has the potential to
improve performance, but a specific issue that needs to be addressed is the
difficulty it has in handling enharmonic words: named entities (NEs) with the
same pronunciation and part of speech that are spelled differently. This often
occurs with Japanese personal names that have the same pronunciation but
different Kanji characters. Since such NE words tend to be important keywords,
ASR easily loses user trust if it misrecognizes them. To solve these problems,
this paper proposes a novel retraining-free customized method for E2E-ASRs
based on a named-entity-aware E2E-ASR model and phoneme similarity estimation.
Experimental results show that the proposed method improves the target NE
character error rate by 35.7% on average relative to the conventional E2E-ASR
model when selecting personal names as a target NE.
- Abstract(参考訳): エンド・ツー・エンドの自動音声認識(E2E-ASR)は、性能向上の可能性を秘めているが、特に対処すべき課題は、同じ発音と異なる綴りを持つ名前付きエンティティ(NE)を扱うのが困難であることだ。
これは、同じ発音だが漢字の異なる日本人の姓で起こることが多い。
このような NE 単語は重要なキーワードである傾向があるため、ASR は誤認識した場合、容易にユーザ信頼を失う。
そこで本研究では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。
実験の結果,提案手法は,従来のE2E-ASRモデルと比較して,ターゲットNEとして個人名を選択する場合,平均で目標NE文字誤り率を35.7%向上させることがわかった。
関連論文リスト
- DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition [10.844822448167935]
本稿では、自動音声認識(E2E ASR)における音声の混同を軽減するために、CorrEctoR(dubed DANCER)について述べる。
DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。
DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。
論文 参考訳(メタデータ) (2024-03-26T12:27:32Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - JEIT: Joint End-to-End Model and Internal Language Model Training for
Speech Recognition [63.38229762589485]
ILMに大規模未使用テキストを注入する統合エンドツーエンド(E2E)モデルと内部言語モデル(ILM)トレーニング手法を提案する。
JEIT/CJJTは100Bの未ペアの文で、未ペアのテキストなしで訓練されたモデルに対して、レアワードの認識精度を最大16.4%向上させる。
論文 参考訳(メタデータ) (2023-02-16T21:07:38Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Improving Proper Noun Recognition in End-to-End ASR By Customization of
the MWER Loss Criterion [33.043533068435366]
固有名詞は、エンドツーエンド(E2E)自動音声認識(ASR)システムに挑戦する。
従来のASRとは異なり、E2Eシステムは、固有名詞の発音で特別に訓練できる明示的な発音モデルを持たない。
本稿では, 単語誤り率(MWER)訓練の最近の進歩を基盤として, 固有名詞認識を特に重視する2つの新しい損失基準を開発する。
論文 参考訳(メタデータ) (2020-05-19T21:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。