論文の概要: Evolutionary optimization of contexts for phonetic correction in speech
recognition systems
- arxiv url: http://arxiv.org/abs/2102.11480v1
- Date: Tue, 23 Feb 2021 04:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 05:36:25.918808
- Title: Evolutionary optimization of contexts for phonetic correction in speech
recognition systems
- Title(参考訳): 音声認識システムにおける音韻補正のための文脈の進化的最適化
- Authors: Rafael Viana-C\'amara, Diego Campos-Sobrino, Mario Campos-Soberanis
- Abstract要約: 汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。
言語モデルを変更するコンテキストを提供するなど、エラーを減らすためにさまざまな戦略が使用されている。
この記事では、特定のアプリケーションドメインに最適化されたコンテキストを生成するための進化的プロセスの使用について説明します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) is an area of growing academic and
commercial interest due to the high demand for applications that use it to
provide a natural communication method. It is common for general purpose ASR
systems to fail in applications that use a domain-specific language. Various
strategies have been used to reduce the error, such as providing a context that
modifies the language model and post-processing correction methods. This
article explores the use of an evolutionary process to generate an optimized
context for a specific application domain, as well as different correction
techniques based on phonetic distance metrics. The results show the viability
of a genetic algorithm as a tool for context optimization, which, added to a
post-processing correction based on phonetic representations, can reduce the
errors on the recognized speech.
- Abstract(参考訳): 自動音声認識(ASR)は、自然コミュニケーション方法を提供するためにそれを使用するアプリケーションの需要が高いため、学術的および商業的関心が高まっている分野です。
汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。
言語モデルや後処理の補正方法を変更するコンテキストを提供するなど,エラーの低減にさまざまな戦略が使用されている。
この記事では、特定のアプリケーション領域に最適化されたコンテキストを生成するための進化的プロセスの使用、および音韻距離メトリクスに基づく異なる補正技術について説明します。
その結果、文脈最適化のためのツールとしての遺伝的アルゴリズムの有効性が示され、音韻表現に基づく後処理補正に加えられ、認識された音声の誤りを低減できる。
関連論文リスト
- Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling [48.78361527873024]
本稿では,2つの異なる手法の強みを組み込んだ手書き文字認識手法を提案する。
本稿では,アルゴリズムの収束を加速し,システム全体の性能を向上させるスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-09-09T15:12:28Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - A Light-weight contextual spelling correction model for customizing
transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。
実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。
このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-17T08:14:37Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Hybrid phonetic-neural model for correction in speech recognition
systems [0.0]
テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,深層ニューラルネットワークを用いて精査した。
結果は、特定の言語領域における閉ASRによるエラーを減らすために、ディープラーニングモデルと後処理修正戦略の実行可能性を示しています。
論文 参考訳(メタデータ) (2021-02-12T19:57:16Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。