論文の概要: Hybrid phonetic-neural model for correction in speech recognition
systems
- arxiv url: http://arxiv.org/abs/2102.06744v1
- Date: Fri, 12 Feb 2021 19:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 01:40:08.930714
- Title: Hybrid phonetic-neural model for correction in speech recognition
systems
- Title(参考訳): 音声認識システムにおける音韻-ニューラルハイブリッドモデルによる補正
- Authors: Rafael Viana-C\'amara, Mario Campos-Soberanis, Diego Campos-Sobrino
- Abstract要約: テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,深層ニューラルネットワークを用いて精査した。
結果は、特定の言語領域における閉ASRによるエラーを減らすために、ディープラーニングモデルと後処理修正戦略の実行可能性を示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) is a relevant area in multiple settings
because it provides a natural communication mechanism between applications and
users. ASRs often fail in environments that use language specific to particular
application domains. Some strategies have been explored to reduce errors in
closed ASRs through post-processing, particularly automatic spell checking, and
deep learning approaches. In this article, we explore using a deep neural
network to refine the results of a phonetic correction algorithm applied to a
telesales audio database. The results exhibit a reduction in the word error
rate (WER), both in the original transcription and in the phonetic correction,
which shows the viability of deep learning models together with post-processing
correction strategies to reduce errors made by closed ASRs in specific language
domains.
- Abstract(参考訳): 自動音声認識(ASR)は、アプリケーションとユーザ間の自然なコミュニケーション機構を提供するため、複数の設定において関連分野である。
ASRは特定のアプリケーションドメイン固有の言語を使用する環境で失敗することが多い。
後処理、特に自動スペルチェック、ディープラーニングアプローチを通じて、クローズドASRのエラーを減らすための戦略が検討されている。
本稿では,テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,ディープニューラルネットワークを用いて詳細に検討する。
その結果, 単語誤り率 (WER) は, 単語誤り率 (WER) と音声誤り率 (音韻補正) の両方で低下し, 特定の言語領域における閉ASRによる誤りを減らすための後処理補正戦略とともに深層学習モデルの実行可能性を示した。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - Unsupervised domain adaptation for speech recognition with unsupervised
error correction [20.465220855548292]
教師なしASR領域適応のための教師なし誤り訂正法を提案する。
提案手法は,修正トレーニングサンプルを生成するために擬似ラベル法を適用した対象領域のラベル付きデータのみを必要とする。
実験の結果,非適応型ASRシステムに対する単語誤り率 (WER) の低減が得られた。
論文 参考訳(メタデータ) (2022-09-24T16:05:23Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Evolutionary optimization of contexts for phonetic correction in speech
recognition systems [0.0]
汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。
言語モデルを変更するコンテキストを提供するなど、エラーを減らすためにさまざまな戦略が使用されている。
この記事では、特定のアプリケーションドメインに最適化されたコンテキストを生成するための進化的プロセスの使用について説明します。
論文 参考訳(メタデータ) (2021-02-23T04:14:51Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。