論文の概要: Improving Contextual Spelling Correction by External Acoustics Attention
and Semantic Aware Data Augmentation
- arxiv url: http://arxiv.org/abs/2302.11192v1
- Date: Wed, 22 Feb 2023 08:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:57:45.287982
- Title: Improving Contextual Spelling Correction by External Acoustics Attention
and Semantic Aware Data Augmentation
- Title(参考訳): 外部音響アテンションと意味的認識データ拡張によるコンテキストスペル補正の改善
- Authors: Xiaoqiang Wang, Yanqing Liu, Jinyu Li, Sheng Zhao
- Abstract要約: 本稿では,E2Eニューラルトランスデューサを用いたASRシステムにおける文脈バイアスに対する非自己回帰スペル補正モデルを提案する。
音声情報に外部の注意を払い、テキスト仮説をCSCに組み込んで、目的語句と相違語句や無関係語句とをよりよく区別する。
実験により、改良された手法は、ベースラインのASR+Biasingシステムよりも20.3%の相対的な名前リコールゲインで優れていることが示された。
- 参考スコア(独自算出の注目度): 31.408074817254732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We previously proposed contextual spelling correction (CSC) to correct the
output of end-to-end (E2E) automatic speech recognition (ASR) models with
contextual information such as name, place, etc. Although CSC has achieved
reasonable improvement in the biasing problem, there are still two drawbacks
for further accuracy improvement. First, due to information limitation in text
only hypothesis or weak performance of ASR model on rare domains, the CSC model
may fail to correct phrases with similar pronunciation or anti-context cases
where all biasing phrases are not present in the utterance. Second, there is a
discrepancy between the training and inference of CSC. The bias list in
training is randomly selected but in inference there may be more similarity
between ground truth phrase and other phrases. To solve above limitations, in
this paper we propose an improved non-autoregressive (NAR) spelling correction
model for contextual biasing in E2E neural transducer-based ASR systems to
improve the previous CSC model from two perspectives: Firstly, we incorporate
acoustics information with an external attention as well as text hypotheses
into CSC to better distinguish target phrase from dissimilar or irrelevant
phrases. Secondly, we design a semantic aware data augmentation schema in
training phrase to reduce the mismatch between training and inference to
further boost the biasing accuracy. Experiments show that the improved method
outperforms the baseline ASR+Biasing system by as much as 20.3% relative name
recall gain and achieves stable improvement compared to the previous CSC method
over different bias list name coverage ratio.
- Abstract(参考訳): 我々は以前,コンテキストスペル補正(CSC)を提案し,名前や場所などの文脈情報を用いたエンドツーエンド自動音声認識(ASR)モデルの出力を補正した。
CSCはバイアス問題において妥当な改善を達成しているが、さらなる精度改善には2つの欠点がある。
第一に、稀な領域でのasrモデルのテキストのみの情報制限や弱い性能のため、cscモデルは、発話中にすべてのバイアスフレーズが存在しない場合、類似の発音またはアンチコンテキストの句を訂正できない可能性がある。
第二に、CSCのトレーニングと推論には相違点がある。
トレーニングにおけるバイアスリストはランダムに選択されるが、推論では基底真理句と他の句の間により類似性があるかもしれない。
本稿では,従来のCSCモデルを改善するために,E2Eニューラルトランスデューサを用いたASRシステムにおける文脈バイアス補正のための改良された非自己回帰(NAR)スペル補正モデルを提案する。
第2に、トレーニングフレーズにおける意味認識データ拡張スキーマを設計し、トレーニングと推論のミスマッチを低減し、バイアスの精度をさらに高める。
実験の結果,改良された手法はベースラインASR+Biasingシステムに最大20.3%の相対的な名前リコールゲインを付与し,バイアスリスト名カバレッジ比の異なるCSC法と比較して安定した改善を実現することがわかった。
関連論文リスト
- Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction [40.11364098789309]
チャイニーズ・スペルリング・コーパス(CSC)は通常、大規模な高品質コーパスを欠いている。
2つのデータ拡張手法が広く採用されている: (1) 混乱セットのガイダンス付きtextitRandom Replacement と (2) 文字誤用をシミュレートする textitOCR/ASR ベースジェネレーション。
論文 参考訳(メタデータ) (2024-07-22T09:26:35Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。