論文の概要: Automatic Speech Recognition using limited vocabulary: A survey
- arxiv url: http://arxiv.org/abs/2108.10254v1
- Date: Mon, 23 Aug 2021 15:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:27:28.063616
- Title: Automatic Speech Recognition using limited vocabulary: A survey
- Title(参考訳): 限定語彙を用いた自動音声認識:調査
- Authors: Jean Louis K. E. Fendji, Diane M. Tala, Blaise O. Yenke, and Marcellin
Atemkeng
- Abstract要約: アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。
本稿では,ASRシステムの背後にあるメカニズムや技術,ツール,プロジェクト,最近のコントリビューション,さらには将来的な方向性を,限定語彙を用いて包括的に把握することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) is an active field of research due to its
huge number of applications and the proliferation of interfaces or computing
devices that can support speech processing. But the bulk of applications is
based on well-resourced languages that overshadow under-resourced ones. Yet ASR
represents an undeniable mean to promote such languages, especially when design
human-to-human or human-to-machine systems involving illiterate people. An
approach to design an ASR system targeting under-resourced languages is to
start with a limited vocabulary. ASR using a limited vocabulary is a subset of
the speech recognition problem that focuses on the recognition of a small
number of words or sentences. This paper aims to provide a comprehensive view
of mechanisms behind ASR systems as well as techniques, tools, projects, recent
contributions, and possibly future directions in ASR using a limited
vocabulary. This work consequently provides a way to go when designing ASR
system using limited vocabulary. Although an emphasis is put on limited
vocabulary, most of the tools and techniques reported in this survey applied to
ASR systems in general.
- Abstract(参考訳): 音声認識(Automatic Speech Recognition, ASR)は、膨大な数のアプリケーションと、音声処理をサポートするインターフェースやコンピューティングデバイスの普及により、活発な研究分野である。
しかし、ほとんどのアプリケーションは、未公開の言語を覆い隠す、十分なリソースを持つ言語に基づいている。
しかし、ASRは、人間から人間、人間から機械までを設計する際に、そのような言語を広めるには不確実な手段である。
アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。
限定語彙を用いたASRは、少数の単語や文の認識に焦点を当てた音声認識問題のサブセットである。
本稿では,asrシステムを支えるメカニズムの包括的視点と,技術,ツール,プロジェクト,最近のコントリビュート,および限定語彙を用いたasrの今後の方向性について述べる。
これにより、限られた語彙を用いてASRシステムを設計する際に進むことができる。
限られた語彙に重点を置いているが、この調査で報告されたツールや技法は一般にASRシステムに適用されている。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - A Deep Learning System for Domain-specific Speech Recognition [0.0]
著者らは、事前に訓練されたDeepSpeech2とWav2Vec2音響モデルを使って、利益特異的なASRシステムの開発を行っている。
最高の性能は、Wav2Vec2-Large-LV60音響モデルと外部KenLMから得られる。
また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。
論文 参考訳(メタデータ) (2023-03-18T22:19:09Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - Can Visual Context Improve Automatic Speech Recognition for an Embodied
Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。
修正されていないASRシステムからWERを59%削減する。
論文 参考訳(メタデータ) (2022-10-21T11:16:05Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Unsupervised Automatic Speech Recognition: A Review [2.6212127510234797]
研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。
本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
論文 参考訳(メタデータ) (2021-06-09T08:33:20Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。