論文の概要: Federated Domain Adaptation for ASR with Full Self-Supervision
- arxiv url: http://arxiv.org/abs/2203.15966v1
- Date: Wed, 30 Mar 2022 00:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 03:13:33.031062
- Title: Federated Domain Adaptation for ASR with Full Self-Supervision
- Title(参考訳): 完全自己スーパービジョンによるASRのフェデレーションドメイン適応
- Authors: Junteng Jia, Jay Mahadeokar, Weiyi Zheng, Yuan Shangguan, Ozlem
Kalinli, Frank Seide
- Abstract要約: クロスデバイスフェデレーション学習(FL)は、ユーザデバイス上でモデルを協調的にトレーニングすることによって、ユーザのプライバシを保護する。
音声認識(ASR)におけるデバイス間FLの検討
本稿では, ASR の基幹書き起こしの欠如と,エッジデバイス上での計算資源やネットワーク帯域の不足に対処する。
- 参考スコア(独自算出の注目度): 12.060139052018782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-device federated learning (FL) protects user privacy by collaboratively
training a model on user devices, therefore eliminating the need for
collecting, storing, and manually labeling user data. Previous works have
considered cross-device FL for automatic speech recognition (ASR), however,
there are a few important challenges that have not been fully addressed. These
include the lack of ground-truth ASR transcriptions, and the scarcity of
compute resource and network bandwidth on edge devices. In this paper, we
address these two challenges. First, we propose a federated learning system to
support on-device ASR adaptation with full self-supervision, which uses
self-labeling together with data augmentation and filtering techniques. The
proposed system can improve a strong Emformer-Transducer based ASR model
pretrained on out-of-domain data, using in-domain audios without any
ground-truth transcriptions. Second, to reduce the training cost, we propose a
self-restricted RNN Transducer (SR-RNN-T) loss, a new variant of
alignment-restricted RNN-T that uses Viterbi forced-alignment from
self-supervision. To further reduce the compute and network cost, we
systematically explore adapting only a subset of weights in the
Emformer-Transducer. Our best training recipe achieves a 12.9% relative WER
reduction over the strong out-of-domain baseline, which equals 70% of the
reduction achievable with full human supervision and centralized training.
- Abstract(参考訳): デバイス間フェデレーション学習(FL)は、ユーザデバイス上でモデルを協調的にトレーニングすることによって、ユーザのプライバシを保護する。
これまでは、自動音声認識(ASR)のためのデバイス間FLが検討されてきたが、未解決の課題がいくつかある。
これには、ASRの基幹転写の欠如、エッジデバイス上での計算リソースとネットワーク帯域の不足などが含まれる。
本稿では,この2つの課題に対処する。
まず,自己ラベルとデータ拡張とフィルタリングを併用した,デバイス上でのasr適応を支援するフェデレーション学習システムを提案する。
提案システムは,ドメイン外データに基づいて事前訓練された強力なEmformer-TransducerベースのASRモデルを改善することができる。
第2に,自己超越からのビタビ強制アライメントを用いたアライメント制約付きRNN-Tの新たな変種である自己制限型RNNトランスデューサ(SR-RNN-T)の損失を提案する。
計算コストとネットワークコストをさらに削減するため,エンフォーマトランスデューサ内の重みのサブセットのみを体系的に検討する。
我々の最高のトレーニングレシピは、強いドメイン外ベースラインに対する12.9%の相対的なWER削減を実現し、完全な人的監督と集中的なトレーニングで達成可能な削減の70%に匹敵する。
関連論文リスト
- On-device Self-supervised Learning of Visual Perception Tasks aboard
Hardware-limited Nano-quadrotors [53.59319391812798]
SI50グラム以下のナノドロンは、学術と産業の両方で勢いを増している。
彼らの最も魅力的なアプリケーションは、知覚のためのディープラーニングモデルに依存している。
未知の環境にデプロイする場合、これらのモデルはドメインシフトによってパフォーマンスが低下することが多い。
本研究では,ナノドローンを用いたデバイス上での学習を初めて提案する。
論文 参考訳(メタデータ) (2024-03-06T22:04:14Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Adaptive Target-Condition Neural Network: DNN-Aided Load Balancing for
Hybrid LiFi and WiFi Networks [19.483289519348315]
機械学習は、複雑性に優しいロードバランシングソリューションを提供する可能性がある。
学習支援のSOTA(State-of-the-art)は,ネットワーク環境が変化すると再学習を必要とする。
適応目標条件ニューラルネットワーク(A-TCNN)と呼ばれる新しいディープニューラルネットワーク(DNN)構造を提案する。
論文 参考訳(メタデータ) (2022-08-09T20:46:13Z) - Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文 参考訳(メタデータ) (2022-07-29T15:14:03Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Enabling Incremental Training with Forward Pass for Edge Devices [0.0]
進化戦略(ES)を用いてネットワークを部分的に再トレーニングし,エラー発生後に変更に適応し,回復できるようにする手法を提案する。
この技術は、バックプロパゲーションを必要とせず、最小限のリソースオーバーヘッドで推論専用ハードウェアのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-03-25T17:43:04Z) - Privacy-Preserving Federated Learning for UAV-Enabled Networks:
Learning-Based Joint Scheduling and Resource Management [45.15174235000158]
無人航空機(UAV)は、データ収集、人工知能(AI)モデルトレーニング、無線通信をサポートする飛行基地局(BS)として機能する。
モデルトレーニングのためにUAVサーバにデバイスの生データを送信するのは現実的ではない。
本稿では,マルチUAV対応ネットワークのための非同期フェデレーション学習フレームワークを開発する。
論文 参考訳(メタデータ) (2020-11-28T18:58:34Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。