論文の概要: Federated Representation Learning for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2308.02013v2
- Date: Mon, 7 Aug 2023 21:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:05:28.554613
- Title: Federated Representation Learning for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのフェデレーション表現学習
- Authors: Guruprasad V Ramesh, Gopinath Chennupati, Milind Rao, Anit Kumar Sahu,
Ariya Rastrow, Jasha Droppo
- Abstract要約: Federated Learning(FL)はプライバシ保護のパラダイムであり、エッジデバイスがデータを共有せずに協調的に学習できるようにする。
我々は、データのプライバシー制約に配慮した自動音声認識のための表現を学習するために、自己教師付き学習(SSL)とFLをまとめる。
FL における事前学習型 ASR エンコーダは,中心的な事前学習モデルと同様に動作し,事前学習に比べて 12-15% (WER) の改善が得られた。
- 参考スコア(独自算出の注目度): 20.641076546330986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated Learning (FL) is a privacy-preserving paradigm, allowing edge
devices to learn collaboratively without sharing data. Edge devices like Alexa
and Siri are prospective sources of unlabeled audio data that can be tapped to
learn robust audio representations. In this work, we bring Self-supervised
Learning (SSL) and FL together to learn representations for Automatic Speech
Recognition respecting data privacy constraints. We use the speaker and chapter
information in the unlabeled speech dataset, Libri-Light, to simulate non-IID
speaker-siloed data distributions and pre-train an LSTM encoder with the
Contrastive Predictive Coding framework with FedSGD. We show that the
pre-trained ASR encoder in FL performs as well as a centrally pre-trained model
and produces an improvement of 12-15% (WER) compared to no pre-training. We
further adapt the federated pre-trained models to a new language, French, and
show a 20% (WER) improvement over no pre-training.
- Abstract(参考訳): Federated Learning(FL)はプライバシ保護のパラダイムであり、エッジデバイスがデータを共有せずに協調的に学習できるようにする。
AlexaやSiriのようなエッジデバイスは、堅牢なオーディオ表現を学習するためにタップできるラベルなしのオーディオデータの予測ソースである。
本研究では,データプライバシー制約に配慮した音声認識のための表現を学習するために,自己教師付き学習(SSL)とFLを併用する。
我々は、ラベルなし音声データセットLibri-Lightの話者情報と章情報を用いて、非IID話者サイロデータ分布をシミュレートし、FedSGDのContrastive Predictive Codingフレームワークを用いてLSTMエンコーダを事前訓練する。
FL における事前学習型 ASR エンコーダは,中心的な事前学習モデルと同様に動作し,事前学習に比べて 12-15% (WER) の改善が得られた。
我々はさらに,新しい言語であるフランス語にフェデレート事前学習モデルを適用し,事前学習を行わない場合の20%(wer)改善を示す。
関連論文リスト
- Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Split Federated Learning on Micro-controllers: A Keyword Spotting
Showcase [1.4794135558227681]
フェデレートラーニング(Federated Learning)は,ユーザの生データをサーバに収集することなく,ローカルでモデルをトレーニングする,プライベートラーニングスキームとして提案されている。
本研究では,Arduinoボード上に単純なSFLフレームワークを実装し,90%以上の精度でキーワードスポッティングアプリケーションのための中国語桁音声データセットの正当性を検証した。
英数字音声データセットでは、SFL実装は最先端のFL実装と比較して13.89%高い精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T23:42:45Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On
Federated Learning using Multiview Pseudo-Labeling [43.17379040854574]
音声感情認識(SER)アプリケーションは、しばしばプライバシー上の懸念に結びついている。
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習アルゴリズムである。
本研究では,ラベル付きデータとラベルなしデータの両方を用いて,FLにおける限定データサンプルの課題に対処する半教師付きフェデレーション学習フレームワークであるSemi-FedSERを提案する。
論文 参考訳(メタデータ) (2022-03-15T21:50:43Z) - Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer
in ASR [13.726142328715897]
本稿では、ターゲット言語からの全く転写されていないトレーニングデータを用いて、ASRシステムの言語間訓練を行う方法を提案する。
提案手法は,対象言語からの未ペア音声とテキストデータのみを演算する復号アルゴリズムの新たな適用法である。
論文 参考訳(メタデータ) (2021-11-12T16:16:46Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Federated Self-Training for Semi-Supervised Audio Recognition [0.23633885460047763]
本研究では,自己学習による音声モデルの半教師あり学習の問題について検討する。
我々はFedSTARを提案し、大規模なデバイス上での未ラベルデータを利用して音声認識モデルの一般化を改善する。
論文 参考訳(メタデータ) (2021-07-14T17:40:10Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。