論文の概要: Incremental Layer-wise Self-Supervised Learning for Efficient Speech
Domain Adaptation On Device
- arxiv url: http://arxiv.org/abs/2110.00155v1
- Date: Fri, 1 Oct 2021 01:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:20:22.509667
- Title: Incremental Layer-wise Self-Supervised Learning for Efficient Speech
Domain Adaptation On Device
- Title(参考訳): デバイス上での効率的な音声領域適応のための階層的自己教師付き学習
- Authors: Zhouyuan Huo, Dongseong Hwang, Khe Chai Sim, Shefali Garg, Ananya
Misra, Nikhil Siddhartha, Trevor Strohman, Fran\c{c}oise Beaufays
- Abstract要約: 本稿では,モバイル端末上での音声領域適応を効果的に行うための,段階的層単位での自己教師型学習アルゴリズムを提案する。
提案アルゴリズムは、目標ドメイン上のワードエラー率(WER)を、教師付きベースラインよりも24.2%高い価格で取得し、エンドツーエンドの自己教師付き学習アルゴリズムよりも89.7%低いトレーニングメモリを提供する。
- 参考スコア(独自算出の注目度): 24.21909388395124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming end-to-end speech recognition models have been widely applied to
mobile devices and show significant improvement in efficiency. These models are
typically trained on the server using transcribed speech data. However, the
server data distribution can be very different from the data distribution on
user devices, which could affect the model performance. There are two main
challenges for on device training, limited reliable labels and limited training
memory. While self-supervised learning algorithms can mitigate the mismatch
between domains using unlabeled data, they are not applicable on mobile devices
directly because of the memory constraint. In this paper, we propose an
incremental layer-wise self-supervised learning algorithm for efficient speech
domain adaptation on mobile devices, in which only one layer is updated at a
time. Extensive experimental results demonstrate that the proposed algorithm
obtains a Word Error Rate (WER) on the target domain $24.2\%$ better than
supervised baseline and costs $89.7\%$ less training memory than the end-to-end
self-supervised learning algorithm.
- Abstract(参考訳): エンドツーエンド音声認識モデルはモバイルデバイスに広く適用されており、効率が大幅に向上している。
これらのモデルは典型的には、書き起こされた音声データを使用してサーバー上で訓練される。
しかし、サーバのデータ配信は、ユーザデバイスのデータ配信とは大きく異なり、モデルの性能に影響を及ぼす可能性がある。
デバイストレーニング、信頼できるラベルの制限、トレーニングメモリの制限には2つの大きな課題がある。
自己教師付き学習アルゴリズムはラベルなしのデータを用いてドメイン間のミスマッチを軽減することができるが、メモリ制約のためモバイルデバイスでは直接適用できない。
本稿では,モバイル端末上での効率的な音声ドメイン適応のための,段階的な層単位の自己教師付き学習アルゴリズムを提案する。
大規模な実験結果から,提案アルゴリズムは,教師付きベースラインよりも目標ドメインのワード誤り率(WER)が24.2 %,訓練メモリが89.7 %と,エンドツーエンドの自己教師付き学習アルゴリズムよりも低いことがわかった。
関連論文リスト
- Layer Attack Unlearning: Fast and Accurate Machine Unlearning via Layer
Level Attack and Knowledge Distillation [21.587358050012032]
本稿では,階層攻撃アンラーニング(Layer attack unlearning)と呼ばれる,高速で斬新な機械学習パラダイムを提案する。
そこで本研究では, 試料を効率よく検出する部分PGDアルゴリズムを提案する。
また,教師から意思決定境界を確実に学習するために知識蒸留(KD)も活用する。
論文 参考訳(メタデータ) (2023-12-28T04:38:06Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - Improving low-resource ASR performance with untranscribed out-of-domain
data [8.376091455761259]
半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
論文 参考訳(メタデータ) (2021-06-02T15:23:34Z) - $DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device
Multi-Domain Learning [30.53018068935323]
アクティベーションストレージに使用される大きなメモリは、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックである。
本稿では,メモリ効率の高いマルチドメイン学習手法であるDeep Additive Attention Adaptionを提案する。
我々は、複数のデータセットに対して、最先端の手法に対して$DA3$を検証し、精度とトレーニング時間の両方において良好な改善を示す。
論文 参考訳(メタデータ) (2020-12-02T18:03:18Z) - Unsupervised Neural Machine Translation for Low-Resource Domains via
Meta-Learning [27.86606560170401]
unsupervised neural machine translation (UNMT) のための新しいメタ学習アルゴリズムを提案する。
私たちは、少量のトレーニングデータだけを利用して、別のドメインに適応するようにモデルを訓練します。
我々のモデルは、最大2-4 BLEUスコアの転送学習に基づくアプローチを超越している。
論文 参考訳(メタデータ) (2020-10-18T17:54:13Z) - Understanding Self-Training for Gradual Domain Adaptation [107.37869221297687]
段階的なドメイン適応は、対象領域へ徐々にシフトするラベルのないデータのみを与えられたソースドメインで訓練された初期分類器を適応させることが目的である。
目標領域への直接適応が非有界誤差をもたらすような設定下において、段階的なシフトを伴う自己学習の誤差に対する最初の非無空上界を証明した。
この理論解析はアルゴリズムの洞察を導き、無限のデータを持つ場合でも正規化とラベルのシャープ化が不可欠であることを強調し、より小さなワッサーシュタイン無限距離のシフトに対して自己学習が特にうまく働くことを示唆している。
論文 参考訳(メタデータ) (2020-02-26T08:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。