論文の概要: Context-based out-of-vocabulary word recovery for ASR systems in Indian
languages
- arxiv url: http://arxiv.org/abs/2206.04305v1
- Date: Thu, 9 Jun 2022 06:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:23:57.861731
- Title: Context-based out-of-vocabulary word recovery for ASR systems in Indian
languages
- Title(参考訳): インド語のASRシステムにおける文脈に基づく語彙外単語復元
- Authors: Arun Baby, Saranya Vinnaitherthan, Akhil Kerhalkar, Pranav Jawale,
Sharath Adavanne, Nagaraj Adiga
- Abstract要約: 本稿では,文脈に基づくOOV回収の性能向上のための後処理手法を提案する。
提案するコスト関数の有効性は,単語レベルと文レベルの両方で評価する。
- 参考スコア(独自算出の注目度): 5.930734371401316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting and recovering out-of-vocabulary (OOV) words is always challenging
for Automatic Speech Recognition (ASR) systems. Many existing methods focus on
modeling OOV words by modifying acoustic and language models and integrating
context words cleverly into models. To train such complex models, we need a
large amount of data with context words, additional training time, and
increased model size. However, after getting the ASR transcription to recover
context-based OOV words, the post-processing method has not been explored much.
In this work, we propose a post-processing technique to improve the performance
of context-based OOV recovery. We created an acoustically boosted language
model with a sub-graph made at phone level with an OOV words list. We proposed
two methods to determine a suitable cost function to retrieve the OOV words
based on the context. The cost function is defined based on phonetic and
acoustic knowledge for matching and recovering the correct context words in the
decode. The effectiveness of the proposed cost function is evaluated at both
word-level and sentence-level. The evaluation results show that this approach
can recover an average of 50% context-based OOV words across multiple
categories.
- Abstract(参考訳): 自動音声認識(ASR)システムでは,oo-of-vocabulary(OOV)単語の検出と回復が常に困難である。
既存の多くの手法は、音響モデルと言語モデルを変更し、文脈語を巧みにモデルに統合することで、OOV単語のモデリングに重点を置いている。
このような複雑なモデルをトレーニングするには、コンテキストワードによる大量のデータ、トレーニング時間の追加、モデルサイズの増加が必要です。
しかし、asr転写により文脈に基づくoov単語を回復させた後、後処理法はあまり検討されていない。
本研究では,文脈に基づくOOV回収の性能向上のための後処理手法を提案する。
音声レベルでのサブグラフとOOV単語リストを用いた音響的に強化された言語モデルを構築した。
そこで我々は,その文脈に基づいてOOV単語の検索に適したコスト関数を決定する2つの手法を提案する。
コスト関数は、デコード中の正しい文脈単語のマッチングと復元のための音声的および音響的知識に基づいて定義される。
提案するコスト関数の有効性は,単語レベルと文レベルの両方で評価する。
評価の結果,複数のカテゴリにまたがる平均50%の文脈ベースOOV単語を復元できることがわかった。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Emphasizing Unseen Words: New Vocabulary Acquisition for End-to-End
Speech Recognition [21.61242091927018]
トレンディングワードや新しい名前を持つエンティティなど、Of-Vocabulary以外の単語は、現代のASRシステムに問題を引き起こす。
我々は,テキスト音声システムを用いてOOV語を生成することを提案し,損失を再スケールすることで,ニューラルネットワークがOOV語により多くの注意を払うことを奨励する。
論文 参考訳(メタデータ) (2023-02-20T02:21:30Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - A Comparison of Methods for OOV-word Recognition on a New Public Dataset [0.0]
我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。
次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。
OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T19:39:30Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Deep learning models for representing out-of-vocabulary words [1.4502611532302039]
本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
論文 参考訳(メタデータ) (2020-07-14T19:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。