論文の概要: ed-cec: improving rare word recognition using asr postprocessing based
on error detection and context-aware error correction
- arxiv url: http://arxiv.org/abs/2310.05129v1
- Date: Sun, 8 Oct 2023 11:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:27:05.069559
- Title: ed-cec: improving rare word recognition using asr postprocessing based
on error detection and context-aware error correction
- Title(参考訳): ed-cec:誤り検出と文脈認識誤り訂正に基づくasr後処理によるレアワード認識の改善
- Authors: Jiajun He, Zekun Yang, Tomoki Toda
- Abstract要約: 本稿では,誤り検出と文脈認識誤り訂正により,稀な単語の認識を改善することに焦点を当てた新しいASRポストプロセッシング手法を提案する。
5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)が有意に低いことを示す。
- 参考スコア(独自算出の注目度): 30.486396813844195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems often encounter difficulties in
accurately recognizing rare words, leading to errors that can have a negative
impact on downstream tasks such as keyword spotting, intent detection, and text
summarization. To address this challenge, we present a novel ASR postprocessing
method that focuses on improving the recognition of rare words through error
detection and context-aware error correction. Our method optimizes the decoding
process by targeting only the predicted error positions, minimizing unnecessary
computations. Moreover, we leverage a rare word list to provide additional
contextual knowledge, enabling the model to better correct rare words.
Experimental results across five datasets demonstrate that our proposed method
achieves significantly lower word error rates (WERs) than previous approaches
while maintaining a reasonable inference speed. Furthermore, our approach
exhibits promising robustness across different ASR systems.
- Abstract(参考訳): 自動音声認識(ASR)システムは、稀な単語を正確に認識する上で、しばしば困難に遭遇し、キーワードスポッティング、意図検出、テキスト要約などの下流タスクに悪影響を及ぼすエラーを引き起こす。
そこで本研究では,誤り検出と文脈認識による誤り訂正により,レアワードの認識を改善することに焦点を当てた新しいasrポストプロセッシング手法を提案する。
提案手法は,予測誤り位置のみをターゲットとしてデコード処理を最適化し,不要な計算を最小化する。
さらに,レアワードリストを利用して追加の文脈知識を提供し,レアワードの訂正をより容易に行えるようにした。
5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)を著しく低くし,適切な推論速度を維持した。
さらに,本手法は,異なるASRシステムにまたがる有望な堅牢性を示す。
関連論文リスト
- Self-consistent context aware conformer transducer for speech
recognition [0.0675253870287079]
本研究では,コンバータトランスデューサをベースとした新しいニューラルネットワークアーキテクチャを提案する。
本手法は,通常の単語の単語誤り率を損なうことなく,非一般的な単語を認識する精度を向上させる。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling [26.27504889360246]
本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
論文 参考訳(メタデータ) (2021-05-25T12:15:45Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。