論文の概要: Hybrid phonetic-neural model for correction in speech recognition
systems
- arxiv url: http://arxiv.org/abs/2102.06744v1
- Date: Fri, 12 Feb 2021 19:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 01:40:08.930714
- Title: Hybrid phonetic-neural model for correction in speech recognition
systems
- Title(参考訳): 音声認識システムにおける音韻-ニューラルハイブリッドモデルによる補正
- Authors: Rafael Viana-C\'amara, Mario Campos-Soberanis, Diego Campos-Sobrino
- Abstract要約: テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,深層ニューラルネットワークを用いて精査した。
結果は、特定の言語領域における閉ASRによるエラーを減らすために、ディープラーニングモデルと後処理修正戦略の実行可能性を示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) is a relevant area in multiple settings
because it provides a natural communication mechanism between applications and
users. ASRs often fail in environments that use language specific to particular
application domains. Some strategies have been explored to reduce errors in
closed ASRs through post-processing, particularly automatic spell checking, and
deep learning approaches. In this article, we explore using a deep neural
network to refine the results of a phonetic correction algorithm applied to a
telesales audio database. The results exhibit a reduction in the word error
rate (WER), both in the original transcription and in the phonetic correction,
which shows the viability of deep learning models together with post-processing
correction strategies to reduce errors made by closed ASRs in specific language
domains.
- Abstract(参考訳): 自動音声認識(ASR)は、アプリケーションとユーザ間の自然なコミュニケーション機構を提供するため、複数の設定において関連分野である。
ASRは特定のアプリケーションドメイン固有の言語を使用する環境で失敗することが多い。
後処理、特に自動スペルチェック、ディープラーニングアプローチを通じて、クローズドASRのエラーを減らすための戦略が検討されている。
本稿では,テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,ディープニューラルネットワークを用いて詳細に検討する。
その結果, 単語誤り率 (WER) は, 単語誤り率 (WER) と音声誤り率 (音韻補正) の両方で低下し, 特定の言語領域における閉ASRによる誤りを減らすための後処理補正戦略とともに深層学習モデルの実行可能性を示した。
関連論文リスト
- Unsupervised domain adaptation for speech recognition with unsupervised
error correction [20.465220855548292]
教師なしASR領域適応のための教師なし誤り訂正法を提案する。
提案手法は,修正トレーニングサンプルを生成するために擬似ラベル法を適用した対象領域のラベル付きデータのみを必要とする。
実験の結果,非適応型ASRシステムに対する単語誤り率 (WER) の低減が得られた。
論文 参考訳(メタデータ) (2022-09-24T16:05:23Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - A Study of Low-Resource Speech Commands Recognition based on Adversarial
Reprogramming [70.54904620717845]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Evolutionary optimization of contexts for phonetic correction in speech
recognition systems [0.0]
汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。
言語モデルを変更するコンテキストを提供するなど、エラーを減らすためにさまざまな戦略が使用されている。
この記事では、特定のアプリケーションドメインに最適化されたコンテキストを生成するための進化的プロセスの使用について説明します。
論文 参考訳(メタデータ) (2021-02-23T04:14:51Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。