論文の概要: A Comparison of Methods for OOV-word Recognition on a New Public Dataset
- arxiv url: http://arxiv.org/abs/2107.08091v1
- Date: Fri, 16 Jul 2021 19:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 10:39:25.891247
- Title: A Comparison of Methods for OOV-word Recognition on a New Public Dataset
- Title(参考訳): 新しい公開データセットにおけるOOV単語認識手法の比較
- Authors: Rudolf A. Braun, Srikanth Madikeri, Petr Motlicek
- Abstract要約: 我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。
次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。
OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A common problem for automatic speech recognition systems is how to recognize
words that they did not see during training. Currently there is no established
method of evaluating different techniques for tackling this problem. We propose
using the CommonVoice dataset to create test sets for multiple languages which
have a high out-of-vocabulary (OOV) ratio relative to a training set and
release a new tool for calculating relevant performance metrics. We then
evaluate, within the context of a hybrid ASR system, how much better subword
models are at recognizing OOVs, and how much benefit one can get from
incorporating OOV-word information into an existing system by modifying WFSTs.
Additionally, we propose a new method for modifying a subword-based language
model so as to better recognize OOV-words. We showcase very large improvements
in OOV-word recognition and make both the data and code available.
- Abstract(参考訳): 自動音声認識システムにおける一般的な問題は、訓練中に見なかった単語の認識方法である。
現在、この問題に対処するための様々な手法を評価する方法が確立されていない。
我々はCommonVoiceデータセットを用いて、トレーニングセットに対して高い語彙(OOV)比を持つ複数の言語を対象としたテストセットを作成し、関連するパフォーマンスメトリクスを計算するための新しいツールをリリースする。
次に,ハイブリッドasrシステムにおいて,oov認識におけるサブワードモデルがどの程度優れているか,wfstsを改良することで既存のシステムにoovワード情報を組み込むことによるメリットについて評価する。
さらに,OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
OOVワード認識の大幅な改善を示し、データとコードの両方を利用可能にします。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Context-based out-of-vocabulary word recovery for ASR systems in Indian
languages [5.930734371401316]
本稿では,文脈に基づくOOV回収の性能向上のための後処理手法を提案する。
提案するコスト関数の有効性は,単語レベルと文レベルの両方で評価する。
論文 参考訳(メタデータ) (2022-06-09T06:51:31Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Data Augmentation for Voice-Assistant NLU using BERT-based
Interchangeable Rephrase [39.09474362100266]
本論文では,バイトペア符号化に基づくデータ拡張手法とBERTのような自己認識モデルを導入して,話し言葉理解タスクのパフォーマンス向上を図る。
本手法は,音声アシスタントのドメインと意図の分類タスクや,発話の自然性や意味的類似性に着目したユーザスタディに強く貢献することを示す。
論文 参考訳(メタデータ) (2021-04-16T17:53:58Z) - Deep learning models for representing out-of-vocabulary words [1.4502611532302039]
本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
論文 参考訳(メタデータ) (2020-07-14T19:31:25Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。