論文の概要: The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning
- arxiv url: http://arxiv.org/abs/2310.00141v2
- Date: Thu, 30 Nov 2023 21:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:58:46.052840
- Title: The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning
- Title(参考訳): フィードバックの贈与:連合学習によるユーザ補正からの学習によるasrモデル品質の向上
- Authors: Lillian Zhou, Yuxin Ding, Mingqing Chen, Harry Zhang, Rohit
Prabhavalkar, Dhruv Guliani, Giovanni Motta, Rajiv Mathews
- Abstract要約: フェデレートラーニング(FL)を通じてデバイス上でのユーザ修正から継続的に学習することを目指す。
我々は、モデルがこれまで遭遇していなかった新しい用語をターゲットとして、長い尾の単語を学習し、破滅的な忘れ事をする手法を探究する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することが確認された。
- 参考スコア(独自算出の注目度): 20.643270151774182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) models are typically trained on large
datasets of transcribed speech. As language evolves and new terms come into
use, these models can become outdated and stale. In the context of models
trained on the server but deployed on edge devices, errors may result from the
mismatch between server training data and actual on-device usage. In this work,
we seek to continually learn from on-device user corrections through Federated
Learning (FL) to address this issue. We explore techniques to target fresh
terms that the model has not previously encountered, learn long-tail words, and
mitigate catastrophic forgetting. In experimental evaluations, we find that the
proposed techniques improve model recognition of fresh terms, while preserving
quality on the overall language distribution.
- Abstract(参考訳): 自動音声認識(ASR)モデルは典型的には、転写された音声の大きなデータセットで訓練される。
言語が進化し、新しい用語が使われるようになると、これらのモデルは時代遅れになり、古くなります。
サーバ上でトレーニングされ、エッジデバイスにデプロイされるモデルのコンテキストでは、エラーは、サーバトレーニングデータと実際のオンデバイス使用とのミスマッチに起因する可能性がある。
本研究では,デバイス上でのユーザ修正からフェデレートラーニング(FL)を通じて継続的に学習し,この問題に対処する。
我々は、モデルがこれまで遭遇したことのない新しい用語をターゲットとした手法を検討し、長い単語を学習し、破滅的な忘れを緩和する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することがわかった。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Weigh Your Own Words: Improving Hate Speech Counter Narrative Generation
via Attention Regularization [31.40751207207214]
オンラインヘイトスピーチと戦うための最近の計算手法は、カウンターナラティブの自動生成を伴う。
本稿では, PLMの一般化機能を改善するために, 新たなアテンション正規化手法を提案する。
正規化されたモデルは、ほとんどの場合において最先端のアプローチよりも優れたカウンターナラティブを生み出す。
論文 参考訳(メタデータ) (2023-09-05T15:27:22Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Enabling On-Device Training of Speech Recognition Models with Federated
Dropout [4.165917555996752]
フェデレーション学習は、デバイスを離れないローカルデータに基づいて、エッジ上の機械学習モデルをトレーニングするために使用することができる。
我々は,フルサイズのモデルサーバサイドをトレーニングしながら,クライアントモデルのサイズを減らすために,フェデレートド・ドロップアウト(Federated Dropout)を提案する。
論文 参考訳(メタデータ) (2021-10-07T17:22:40Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。