Fugu-MT 論文翻訳(概要): Unsupervised Automatic Speech Recognition: A Review

論文の概要: Unsupervised Automatic Speech Recognition: A Review

arxiv url: http://arxiv.org/abs/2106.04897v1
Date: Wed, 9 Jun 2021 08:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:00:32.140313
Title: Unsupervised Automatic Speech Recognition: A Review
Title（参考訳）: 教師なし自動音声認識 : レビュー
Authors: Hanan Aldarmaki, Asad Ullah, Nazar Zaki
Abstract要約: 研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
参考スコア（独自算出の注目度）: 2.6212127510234797
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automatic Speech Recognition (ASR) systems can be trained to achieve remarkable performance given large amounts of manually transcribed speech, but large labeled data sets can be difficult or expensive to acquire for all languages of interest. In this paper, we review the research literature to identify models and ideas that could lead to fully unsupervised ASR, including unsupervised segmentation of the speech signal, unsupervised mapping from speech segments to text, and semi-supervised models with nominal amounts of labeled examples. The objective of the study is to identify the limitations of what can be learned from speech data alone and to understand the minimum requirements for speech recognition. Identifying these limitations would help optimize the resources and efforts in ASR development for low-resource languages.
Abstract（参考訳）: 自動音声認識(ASR)システムは、手書き音声を多量に書き起こすと優れた性能を達成するために訓練することができるが、大きなラベル付きデータセットは興味のあるすべての言語で取得することが困難または高価である。本稿では,音声信号の教師なしセグメンテーション,音声セグメントからテキストへの教師なしマッピング,名目上のラベル付きサンプルを用いた半教師なしモデルなど,完全に教師なしASRにつながる可能性のあるモデルやアイデアを特定するために,研究文献をレビューする。本研究の目的は,音声データだけで学習できることの限界を特定し,音声認識の最小要件を理解することである。これらの制限の特定は、低リソース言語のためのASR開発におけるリソースと労力の最適化に役立つだろう。

関連論文リスト

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳（メタデータ） (2024-06-13T17:28:13Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文参考訳（メタデータ） (2023-06-07T12:14:16Z)
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。 SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文参考訳（メタデータ） (2022-12-20T18:39:59Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Unsupervised Pattern Discovery from Thematic Speech Archives Based on Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文参考訳（メタデータ） (2020-11-03T20:06:48Z)
Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for Low-Resource Languages [14.297371692669545]
ゼロリソースシナリオにおける自動音声認識(ASR)のための教師なし音響モデリング(UAM) 第一の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。第二の問題は教師なしサブワードモデリング(unsupervised subword modeling)と呼ばれる。
論文参考訳（メタデータ） (2020-07-29T19:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。