論文の概要: Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2103.08993v1
- Date: Tue, 16 Mar 2021 11:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 18:38:35.715136
- Title: Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning
- Title(参考訳): 自己教師あり音声表現学習によるアフリカ語asrの高速開発
- Authors: Jama Hussein Mohamud, Lloyd Acquaye Thompson, Aissatou Ndoye, and
Laurent Besacier
- Abstract要約: 本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
- 参考スコア(独自算出の注目度): 13.7466513616362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the results of an informal collaboration launched during
the African Master of Machine Intelligence (AMMI) in June 2020. After a series
of lectures and labs on speech data collection using mobile applications and on
self-supervised representation learning from speech, a small group of students
and the lecturer continued working on automatic speech recognition (ASR)
project for three languages: Wolof, Ga, and Somali. This paper describes how
data was collected and ASR systems developed with a small amount (1h) of
transcribed speech as training data. In these low resource conditions,
pre-training a model on large amounts of raw speech was fundamental for the
efficiency of ASR systems developed.
- Abstract(参考訳): 本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集と音声からの自己教師型表現学習に関する一連の講義と研究室の後、学生と講師は、Wolof、Ga、Somaliの3つの言語を対象とした自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
これらの低資源環境下では,asrシステムの効率向上のために,大量の生音声によるモデル事前学習が基本であった。
関連論文リスト
- An Integration of Pre-Trained Speech and Language Models for End-to-End
Speech Recognition [13.537367346559037]
本稿では,事前学習した音声表現モデルと大言語モデル(LLM)を統合して自動音声認識(ASR)を実現する可能性について検討する。
提案モデルでは,音声のプロンプトとしてテキストトークンを自動回帰的に生成することで,E2E ASRを実現する。
実験結果から,提案モデルは現代のE2E ASRモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - DinoSR: Self-Distillation and Online Clustering for Self-supervised
Speech Representation Learning [140.96990096377127]
自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを導入する。
DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した携帯電話の在庫を出力し、最後に、識別トークンを使用して学生ネットワークを誘導する。
本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-05-17T07:23:46Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - ASR-Generated Text for Language Model Pre-training Applied to Speech
Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。
新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文 参考訳(メタデータ) (2022-07-05T08:47:51Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。