論文の概要: Federated Learning for ASR based on Wav2vec 2.0
- arxiv url: http://arxiv.org/abs/2302.10790v1
- Date: Mon, 20 Feb 2023 18:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:25:09.067420
- Title: Federated Learning for ASR based on Wav2vec 2.0
- Title(参考訳): Wav2vec 2.0に基づくASRのフェデレーション学習
- Authors: Tuan Nguyen, Salima Mdhaffar, Natalia Tomashenko, Jean-Fran\c{c}ois
Bonastre, Yannick Est\`eve
- Abstract要約: 自己監督によって事前訓練されたwav2vec 2.0モデルに基づいて,連合学習を用いてASRモデルを訓練する。
実験により、そのようなモデルは言語モデルを用いることなく、公式のTED-Lium 3テストセットで10.92%の単語誤り率が得られることが示された。
また,連合学習への参加による話者のASRパフォーマンスの分析を行った。
- 参考スコア(独自算出の注目度): 4.711492191554342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a study on the use of federated learning to train an ASR
model based on a wav2vec 2.0 model pre-trained by self supervision. Carried out
on the well-known TED-LIUM 3 dataset, our experiments show that such a model
can obtain, with no use of a language model, a word error rate of 10.92% on the
official TED-LIUM 3 test set, without sharing any data from the different
users. We also analyse the ASR performance for speakers depending to their
participation to the federated learning. Since federated learning was first
introduced for privacy purposes, we also measure its ability to protect speaker
identity. To do that, we exploit an approach to analyze information contained
in exchanged models based on a neural network footprint on an indicator
dataset. This analysis is made layer-wise and shows which layers in an
exchanged wav2vec 2.0 based model bring the speaker identity information.
- Abstract(参考訳): 本稿では,自己管理により事前学習されたwav2vec 2.0モデルに基づくasrモデルの訓練におけるフェデレート学習の利用について検討する。
TED-Lium 3 データセットをベースとした実験により,言語モデルを用いることなく,公式のTED-Lium 3 テストセットで10.92% の単語誤り率を,異なるユーザからのデータを共有することなく得ることを示した。
また,連合学習への参加による話者のASRパフォーマンスの分析を行った。
フェデレーション学習はプライバシの目的で最初に導入されたので、スピーカーのアイデンティティを保護する能力も測定しました。
そこで本研究では,インジケータデータセット上のニューラルネットワークの足跡に基づいて,交換モデルに含まれる情報を分析する手法を提案する。
この分析は層単位で行われ、交換されたwav2vec 2.0ベースのモデルのどの層が話者識別情報をもたらすかを示す。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Interpretable Temporal Class Activation Representation for Audio Spoofing Detection [7.476305130252989]
我々は、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合する。
ASVspoof 2019-LAセットのEERは0.51%、min t-DCFは0.0165である。
論文 参考訳(メタデータ) (2024-06-13T05:36:01Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Privacy attacks for automatic speech recognition acoustic models in a
federated learning framework [5.1229352884025845]
Indicatorデータセット上のニューラルネットワークフットプリントに基づいて,ニューラルネットワークAMの情報を解析する手法を提案する。
TED-Lium 3コーパスの実験では、提案手法は非常に効果的であり、EERが1-2%と等しいことが示されている。
論文 参考訳(メタデータ) (2021-11-06T02:08:13Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。