論文の概要: Fixing Errors of the Google Voice Recognizer through Phonetic Distance
Metrics
- arxiv url: http://arxiv.org/abs/2102.09680v1
- Date: Thu, 18 Feb 2021 23:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 21:42:27.675401
- Title: Fixing Errors of the Google Voice Recognizer through Phonetic Distance
Metrics
- Title(参考訳): 音声距離測定によるGoogle Voice認識器の誤りの修正
- Authors: Diego Campos-Sobrino, Mario Campos-Soberanis, Iv\'an Mart\'inez-Chin,
V\'ictor Uc-Cetina
- Abstract要約: 本稿では,音素のLevenshtein距離を用いて音声認識者の誤りを低減するアルゴリズムを提案する。
特定のドメイン向けに設計されているにもかかわらず、ここで提案されるアルゴリズムは一般的な応用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech recognition systems for the Spanish language, such as Google's,
produce errors quite frequently when used in applications of a specific domain.
These errors mostly occur when recognizing words new to the recognizer's
language model or ad hoc to the domain. This article presents an algorithm that
uses Levenshtein distance on phonemes to reduce the speech recognizer's errors.
The preliminary results show that it is possible to correct the recognizer's
errors significantly by using this metric and using a dictionary of specific
phrases from the domain of the application. Despite being designed for
particular domains, the algorithm proposed here is of general application. The
phrases that must be recognized can be explicitly defined for each application,
without the algorithm having to be modified. It is enough to indicate to the
algorithm the set of sentences on which it must work. The algorithm's
complexity is $O(tn)$, where $t$ is the number of words in the transcript to be
corrected, and $n$ is the number of phrases specific to the domain.
- Abstract(参考訳): Googleのようなスペイン語の音声認識システムは、特定のドメインのアプリケーションで使用される場合、エラーを頻繁に発生させる。
これらのエラーは、主に認識者の言語モデルに新しい単語やドメインへのアドホックを認識するときに発生する。
本稿では,音素のLevenshtein距離を用いて音声認識者の誤りを低減するアルゴリズムを提案する。
予備的な結果から,本測定値を用いてアプリケーション領域の特定のフレーズの辞書を用いて認識者の誤りを著しく補正できることが示唆された。
特定のドメイン向けに設計されているにもかかわらず、ここで提案されるアルゴリズムは一般的な応用である。
認識しなければならないフレーズは、アルゴリズムを変更することなく、各アプリケーションで明示的に定義できます。
それはそれが動作しなければならない文のセットをアルゴリズムに示すのに十分です。
アルゴリズムの複雑さは$O(tn)$であり、$t$は修正するトランスクリプト内の単語の数であり、$n$はドメイン固有のフレーズの数である。
関連論文リスト
- Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications [5.266869303483375]
単語誤り率(WER)は自動音声認識(ASR)の精度の一般的な尺度である
本稿では,ロバストな WER を計算するために,拡張Levenshtein 距離アルゴリズムを用いた非破壊的トークンベース手法を提案する。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
論文 参考訳(メタデータ) (2024-08-28T08:14:51Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Unsupervised Domain Adaptation in Speech Recognition using Phonetic
Features [6.872447420442981]
音声特徴量を用いた音声認識において、教師なし性に基づくドメイン適応を行う手法を提案する。
TIMITデータセット上で実験を行い,提案手法を用いて音素誤り率を著しく低減した。
論文 参考訳(メタデータ) (2021-08-04T06:22:12Z) - Hybrid phonetic-neural model for correction in speech recognition
systems [0.0]
テレセールス音声データベースに応用した音声補正アルゴリズムの結果を,深層ニューラルネットワークを用いて精査した。
結果は、特定の言語領域における閉ASRによるエラーを減らすために、ディープラーニングモデルと後処理修正戦略の実行可能性を示しています。
論文 参考訳(メタデータ) (2021-02-12T19:57:16Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Research on Annotation Rules and Recognition Algorithm Based on Phrase
Window [4.334276223622026]
フレーズウィンドウに基づくラベリングルールを提案し,それに対応するフレーズ認識アルゴリズムを設計する。
ラベル付けルールでは、フレーズを最小単位とし、文を7種類のネスト可能なフレーズタイプに分割し、フレーズ間の文法的依存関係を示す。
対応するアルゴリズムは、画像中の対象領域を識別するアイデアに基づいて、文中の様々なフレーズの開始位置と終了位置を見つけることができる。
論文 参考訳(メタデータ) (2020-07-07T00:19:47Z) - How Does That Sound? Multi-Language SpokenName2Vec Algorithm Using
Speech Generation and Deep Learning [4.769747792846004]
SpokenName2Vecは、同様の名前提案問題に対処する、新しくて汎用的なアプローチである。
提案手法は25万のフォアネームからなる大規模データセット上で実証された。
提案手法の性能は,本研究で評価した他の10種類のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-24T20:39:00Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。