論文の概要: Unsupervised domain adaptation for speech recognition with unsupervised
error correction
- arxiv url: http://arxiv.org/abs/2209.12043v1
- Date: Sat, 24 Sep 2022 16:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 15:12:17.819941
- Title: Unsupervised domain adaptation for speech recognition with unsupervised
error correction
- Title(参考訳): 教師なし誤り訂正による音声認識のための教師なし領域適応
- Authors: Long Mai, Julie Carson-Berndsen
- Abstract要約: 教師なしASR領域適応のための教師なし誤り訂正法を提案する。
提案手法は,修正トレーニングサンプルを生成するために擬似ラベル法を適用した対象領域のラベル付きデータのみを必要とする。
実験の結果,非適応型ASRシステムに対する単語誤り率 (WER) の低減が得られた。
- 参考スコア(独自算出の注目度): 20.465220855548292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transcription quality of automatic speech recognition (ASR) systems
degrades significantly when transcribing audios coming from unseen domains. We
propose an unsupervised error correction method for unsupervised ASR domain
adaption, aiming to recover transcription errors caused by domain mismatch.
Unlike existing correction methods that rely on transcribed audios for
training, our approach requires only unlabeled data of the target domains in
which a pseudo-labeling technique is applied to generate correction training
samples. To reduce over-fitting to the pseudo data, we also propose an
encoder-decoder correction model that can take into account additional
information such as dialogue context and acoustic features. Experiment results
show that our method obtains a significant word error rate (WER) reduction over
non-adapted ASR systems. The correction model can also be applied on top of
other adaptation approaches to bring an additional improvement of 10%
relatively.
- Abstract(参考訳): 自動音声認識(ASR)システムの転写品質は、未確認領域からの音声の書き起こし時に著しく低下する。
本研究では、教師なしASRドメイン適応のための教師なし誤り訂正手法を提案し、ドメインミスマッチによる転写誤りの回復を目的とする。
本手法では, 録音音声に頼って訓練を行う既存の補正手法とは異なり, 疑似ラベル法を適用した対象領域のラベル付きデータのみを用いて補正訓練サンプルを生成する。
また,擬似データへの過度な適合を低減するため,対話コンテキストや音響特徴などの付加情報を考慮したエンコーダ・デコーダ補正モデルを提案する。
実験の結果,非適応型asrシステムに対して有意な単語誤り率(wer)低減が得られた。
補正モデルは、他の適応アプローチにも適用でき、10%の追加改善を比較的行うことができる。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Hybrid phonetic-neural model for correction in speech recognition
systems [0.0]
テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,深層ニューラルネットワークを用いて精査した。
結果は、特定の言語領域における閉ASRによるエラーを減らすために、ディープラーニングモデルと後処理修正戦略の実行可能性を示しています。
論文 参考訳(メタデータ) (2021-02-12T19:57:16Z) - Selective Pseudo-Labeling with Reinforcement Learning for
Semi-Supervised Domain Adaptation [116.48885692054724]
半教師付きドメイン適応のための強化学習に基づく選択擬似ラベル法を提案する。
高精度かつ代表的な擬似ラベルインスタンスを選択するための深層Q-ラーニングモデルを開発する。
提案手法は, SSDAのベンチマークデータセットを用いて評価し, 全ての比較手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-07T03:37:38Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。