論文の概要: Unsupervised Automatic Speech Recognition: A Review
- arxiv url: http://arxiv.org/abs/2106.04897v1
- Date: Wed, 9 Jun 2021 08:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:00:32.140313
- Title: Unsupervised Automatic Speech Recognition: A Review
- Title(参考訳): 教師なし自動音声認識 : レビュー
- Authors: Hanan Aldarmaki, Asad Ullah, Nazar Zaki
- Abstract要約: 研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。
本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
- 参考スコア(独自算出の注目度): 2.6212127510234797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems can be trained to achieve
remarkable performance given large amounts of manually transcribed speech, but
large labeled data sets can be difficult or expensive to acquire for all
languages of interest. In this paper, we review the research literature to
identify models and ideas that could lead to fully unsupervised ASR, including
unsupervised segmentation of the speech signal, unsupervised mapping from
speech segments to text, and semi-supervised models with nominal amounts of
labeled examples. The objective of the study is to identify the limitations of
what can be learned from speech data alone and to understand the minimum
requirements for speech recognition. Identifying these limitations would help
optimize the resources and efforts in ASR development for low-resource
languages.
- Abstract(参考訳): 自動音声認識(ASR)システムは、手書き音声を多量に書き起こすと優れた性能を達成するために訓練することができるが、大きなラベル付きデータセットは興味のあるすべての言語で取得することが困難または高価である。
本稿では,音声信号の教師なしセグメンテーション,音声セグメントからテキストへの教師なしマッピング,名目上のラベル付きサンプルを用いた半教師なしモデルなど,完全に教師なしASRにつながる可能性のあるモデルやアイデアを特定するために,研究文献をレビューする。
本研究の目的は,音声データだけで学習できることの限界を特定し,音声認識の最小要件を理解することである。
これらの制限の特定は、低リソース言語のためのASR開発におけるリソースと労力の最適化に役立つだろう。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for
Low-Resource Languages [14.297371692669545]
ゼロリソースシナリオにおける自動音声認識(ASR)のための教師なし音響モデリング(UAM)
第一の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。
第二の問題は教師なしサブワードモデリング(unsupervised subword modeling)と呼ばれる。
論文 参考訳(メタデータ) (2020-07-29T19:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。