論文の概要: Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition
- arxiv url: http://arxiv.org/abs/2111.08400v1
- Date: Tue, 16 Nov 2021 11:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:25:31.875260
- Title: Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition
- Title(参考訳): 中国語音声認識のための統合意味と音声のポスト補正
- Authors: Yi-Chang Chen, Chun-Yen Cheng, Chien-An Chen, Ming-Chieh Sung and
Yi-Ren Yeh
- Abstract要約: 提案手法は,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する手法である。
実世界の音声認識実験の結果,提案手法はベースラインモデルよりも明らかに低いことがわかった。
- 参考スコア(独自算出の注目度): 1.2914521751805657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the recent advances of natural language processing, several works have
applied the pre-trained masked language model (MLM) of BERT to the
post-correction of speech recognition. However, existing pre-trained models
only consider the semantic correction while the phonetic features of words is
neglected. The semantic-only post-correction will consequently decrease the
performance since homophonic errors are fairly common in Chinese ASR. In this
paper, we proposed a novel approach to collectively exploit the contextualized
representation and the phonetic information between the error and its replacing
candidates to alleviate the error rate of Chinese ASR. Our experiment results
on real world speech recognition datasets showed that our proposed method has
evidently lower CER than the baseline model, which utilized a pre-trained BERT
MLM as the corrector.
- Abstract(参考訳): 近年の自然言語処理の進歩により、BERTの事前学習されたマスク付き言語モデル (MLM) を音声認識の後補正に適用する研究がいくつかある。
しかし、既存の事前学習モデルでは、単語の音声的特徴が無視されている間、意味的補正のみを考慮する。
意味のみのポスト補正は、中国ASRではホモフォニックエラーがかなり多いため、性能を低下させる。
本稿では,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する新しい手法を提案する。
実世界の音声認識データセットを用いた実験の結果,提案手法はベースラインモデルよりも明らかにCERを低くし,事前学習したBERT MLMを補正器として利用した。
関連論文リスト
- Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。
本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文 参考訳(メタデータ) (2024-07-02T03:16:47Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Back Transcription as a Method for Evaluating Robustness of Natural
Language Understanding Models to Speech Recognition Errors [0.4681661603096333]
音声対話システムにおいて、自然言語理解の性能を劣化させることができる音声認識システムにより、NLUモデルが先行する。
本稿では,音声認識誤りが自然言語理解モデルの性能に与える影響を調査する手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T13:07:07Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。