論文の概要: Unsupervised Automatic Speech Recognition: A Review
- arxiv url: http://arxiv.org/abs/2106.04897v1
- Date: Wed, 9 Jun 2021 08:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:00:32.140313
- Title: Unsupervised Automatic Speech Recognition: A Review
- Title(参考訳): 教師なし自動音声認識 : レビュー
- Authors: Hanan Aldarmaki, Asad Ullah, Nazar Zaki
- Abstract要約: 研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。
本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
- 参考スコア(独自算出の注目度): 2.6212127510234797
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems can be trained to achieve
remarkable performance given large amounts of manually transcribed speech, but
large labeled data sets can be difficult or expensive to acquire for all
languages of interest. In this paper, we review the research literature to
identify models and ideas that could lead to fully unsupervised ASR, including
unsupervised segmentation of the speech signal, unsupervised mapping from
speech segments to text, and semi-supervised models with nominal amounts of
labeled examples. The objective of the study is to identify the limitations of
what can be learned from speech data alone and to understand the minimum
requirements for speech recognition. Identifying these limitations would help
optimize the resources and efforts in ASR development for low-resource
languages.
- Abstract(参考訳): 自動音声認識(ASR)システムは、手書き音声を多量に書き起こすと優れた性能を達成するために訓練することができるが、大きなラベル付きデータセットは興味のあるすべての言語で取得することが困難または高価である。
本稿では,音声信号の教師なしセグメンテーション,音声セグメントからテキストへの教師なしマッピング,名目上のラベル付きサンプルを用いた半教師なしモデルなど,完全に教師なしASRにつながる可能性のあるモデルやアイデアを特定するために,研究文献をレビューする。
本研究の目的は,音声データだけで学習できることの限界を特定し,音声認識の最小要件を理解することである。
これらの制限の特定は、低リソース言語のためのASR開発におけるリソースと労力の最適化に役立つだろう。
関連論文リスト
- Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for
Low-Resource Languages [14.297371692669545]
ゼロリソースシナリオにおける自動音声認識(ASR)のための教師なし音響モデリング(UAM)
第一の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。
第二の問題は教師なしサブワードモデリング(unsupervised subword modeling)と呼ばれる。
論文 参考訳(メタデータ) (2020-07-29T19:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。