Fugu-MT 論文翻訳(概要): Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning

論文の概要: Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning

arxiv url: http://arxiv.org/abs/2103.08993v1
Date: Tue, 16 Mar 2021 11:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 18:38:35.715136
Title: Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning
Title（参考訳）: 自己教師あり音声表現学習によるアフリカ語asrの高速開発
Authors: Jama Hussein Mohamud, Lloyd Acquaye Thompson, Aissatou Ndoye, and Laurent Besacier
Abstract要約: 本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
参考スコア（独自算出の注目度）: 13.7466513616362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes the results of an informal collaboration launched during the African Master of Machine Intelligence (AMMI) in June 2020. After a series of lectures and labs on speech data collection using mobile applications and on self-supervised representation learning from speech, a small group of students and the lecturer continued working on automatic speech recognition (ASR) project for three languages: Wolof, Ga, and Somali. This paper describes how data was collected and ASR systems developed with a small amount (1h) of transcribed speech as training data. In these low resource conditions, pre-training a model on large amounts of raw speech was fundamental for the efficiency of ASR systems developed.
Abstract（参考訳）: 本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。モバイルアプリケーションを用いた音声データ収集と音声からの自己教師型表現学習に関する一連の講義と研究室の後、学生と講師は、Wolof、Ga、Somaliの3つの言語を対象とした自動音声認識(ASR)プロジェクトに取り組んだ。本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。これらの低資源環境下では,asrシステムの効率向上のために,大量の生音声によるモデル事前学習が基本であった。

関連論文リスト

A Cookbook for Community-driven Data Collection of Impaired Speech in LowResource Languages [7.883772614704979]
本研究は,聴覚障害者のための音声認識モデルを構築するために,音声サンプルの収集手法を提案する。コミュニティ主導のデータ収集とASRモデル構築のためのベストプラクティスとトレーニングの“クッキングブック”を開発することで、ASR技術とデータ収集の民主化を目指している。この研究は概念実証として、ガーナで広く話されている先住民言語であるアカン語における障害言語の最初のオープンソースデータセットをキュレートした。
論文参考訳（メタデータ） (2025-07-03T08:34:15Z)
Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文参考訳（メタデータ） (2025-05-27T12:50:55Z)
Fotheidil: an Automatic Transcription System for the Irish Language [6.87666483638516]
Fotheidilはアイルランド語で最初のウェブベースの転写システムである。 ABAIRイニシアチブの一部として、音声関連AI技術を使用している。
論文参考訳（メタデータ） (2024-12-31T15:44:30Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文参考訳（メタデータ） (2024-09-25T06:17:23Z)
Error-preserving Automatic Speech Recognition of Young English Learners' Language [6.491559928368298]
言語学習者が実践しなければならない中心的なスキルの1つは、言語を話すことである。近年の音声技術と自然言語処理の進歩は、彼らの発話スキルを実践する新しいツールの開発を可能にしている。そこで我々は,若手学習者による自然発話に対処し,誤りを抑えるASRシステムを構築した。
論文参考訳（メタデータ） (2024-06-05T13:15:37Z)
Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文参考訳（メタデータ） (2024-06-03T15:38:40Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
Phonemic Representation and Transcription for Speech to Text Applications for Under-resourced Indigenous African Languages: The Case of Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文参考訳（メタデータ） (2022-10-29T09:04:09Z)
Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文参考訳（メタデータ） (2022-07-01T23:28:16Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Generative Adversarial Training Data Adaptation for Very Low-resource Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。 AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文参考訳（メタデータ） (2020-05-19T07:35:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。