論文の概要: Incremental Layer-wise Self-Supervised Learning for Efficient Speech
Domain Adaptation On Device
- arxiv url: http://arxiv.org/abs/2110.00155v1
- Date: Fri, 1 Oct 2021 01:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:20:22.509667
- Title: Incremental Layer-wise Self-Supervised Learning for Efficient Speech
Domain Adaptation On Device
- Title(参考訳): デバイス上での効率的な音声領域適応のための階層的自己教師付き学習
- Authors: Zhouyuan Huo, Dongseong Hwang, Khe Chai Sim, Shefali Garg, Ananya
Misra, Nikhil Siddhartha, Trevor Strohman, Fran\c{c}oise Beaufays
- Abstract要約: 本稿では,モバイル端末上での音声領域適応を効果的に行うための,段階的層単位での自己教師型学習アルゴリズムを提案する。
提案アルゴリズムは、目標ドメイン上のワードエラー率(WER)を、教師付きベースラインよりも24.2%高い価格で取得し、エンドツーエンドの自己教師付き学習アルゴリズムよりも89.7%低いトレーニングメモリを提供する。
- 参考スコア(独自算出の注目度): 24.21909388395124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming end-to-end speech recognition models have been widely applied to
mobile devices and show significant improvement in efficiency. These models are
typically trained on the server using transcribed speech data. However, the
server data distribution can be very different from the data distribution on
user devices, which could affect the model performance. There are two main
challenges for on device training, limited reliable labels and limited training
memory. While self-supervised learning algorithms can mitigate the mismatch
between domains using unlabeled data, they are not applicable on mobile devices
directly because of the memory constraint. In this paper, we propose an
incremental layer-wise self-supervised learning algorithm for efficient speech
domain adaptation on mobile devices, in which only one layer is updated at a
time. Extensive experimental results demonstrate that the proposed algorithm
obtains a Word Error Rate (WER) on the target domain $24.2\%$ better than
supervised baseline and costs $89.7\%$ less training memory than the end-to-end
self-supervised learning algorithm.
- Abstract(参考訳): エンドツーエンド音声認識モデルはモバイルデバイスに広く適用されており、効率が大幅に向上している。
これらのモデルは典型的には、書き起こされた音声データを使用してサーバー上で訓練される。
しかし、サーバのデータ配信は、ユーザデバイスのデータ配信とは大きく異なり、モデルの性能に影響を及ぼす可能性がある。
デバイストレーニング、信頼できるラベルの制限、トレーニングメモリの制限には2つの大きな課題がある。
自己教師付き学習アルゴリズムはラベルなしのデータを用いてドメイン間のミスマッチを軽減することができるが、メモリ制約のためモバイルデバイスでは直接適用できない。
本稿では,モバイル端末上での効率的な音声ドメイン適応のための,段階的な層単位の自己教師付き学習アルゴリズムを提案する。
大規模な実験結果から,提案アルゴリズムは,教師付きベースラインよりも目標ドメインのワード誤り率(WER)が24.2 %,訓練メモリが89.7 %と,エンドツーエンドの自己教師付き学習アルゴリズムよりも低いことがわかった。
関連論文リスト
- A Continual and Incremental Learning Approach for TinyML On-device Training Using Dataset Distillation and Model Size Adaption [0.4345992906143838]
Tiny Machine Learning (TinyML) の文脈における漸進学習のための新しいアルゴリズムを提案する。
低性能でエネルギー効率のよい組み込みデバイスに最適化されている。
提案アルゴリズムは,組込みデバイス上でのTinyMLインクリメンタル学習に有望なアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-09-11T09:02:33Z) - Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。
EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。
トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文 参考訳(メタデータ) (2024-03-18T12:58:16Z) - Layer Attack Unlearning: Fast and Accurate Machine Unlearning via Layer
Level Attack and Knowledge Distillation [21.587358050012032]
本稿では,階層攻撃アンラーニング(Layer attack unlearning)と呼ばれる,高速で斬新な機械学習パラダイムを提案する。
そこで本研究では, 試料を効率よく検出する部分PGDアルゴリズムを提案する。
また,教師から意思決定境界を確実に学習するために知識蒸留(KD)も活用する。
論文 参考訳(メタデータ) (2023-12-28T04:38:06Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain
Detection [60.88952532574564]
本稿では,ドメイン外インテント検出手法を徹底的に比較する。
意図分類のための3つの標準データセット上で,複数のコンテキストエンコーダとメソッドを効率良く評価する。
本研究の主目的は,超微調整トランスフォーマーを用いたドメイン内データエンコーダが優れた結果をもたらすことである。
論文 参考訳(メタデータ) (2021-01-11T09:10:58Z) - $DA^3$: Deep Additive Attention Adaption for Memory-Efficient On-Device
Multi-Domain Learning [30.53018068935323]
アクティベーションストレージに使用される大きなメモリは、エッジデバイスのトレーニング時間とコストを大幅に制限するボトルネックである。
本稿では,メモリ効率の高いマルチドメイン学習手法であるDeep Additive Attention Adaptionを提案する。
我々は、複数のデータセットに対して、最先端の手法に対して$DA3$を検証し、精度とトレーニング時間の両方において良好な改善を示す。
論文 参考訳(メタデータ) (2020-12-02T18:03:18Z) - Understanding Self-Training for Gradual Domain Adaptation [107.37869221297687]
段階的なドメイン適応は、対象領域へ徐々にシフトするラベルのないデータのみを与えられたソースドメインで訓練された初期分類器を適応させることが目的である。
目標領域への直接適応が非有界誤差をもたらすような設定下において、段階的なシフトを伴う自己学習の誤差に対する最初の非無空上界を証明した。
この理論解析はアルゴリズムの洞察を導き、無限のデータを持つ場合でも正規化とラベルのシャープ化が不可欠であることを強調し、より小さなワッサーシュタイン無限距離のシフトに対して自己学習が特にうまく働くことを示唆している。
論文 参考訳(メタデータ) (2020-02-26T08:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。