論文の概要: Fast Contextual Adaptation with Neural Associative Memory for On-Device
Personalized Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.02220v2
- Date: Thu, 7 Oct 2021 00:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 12:02:24.209706
- Title: Fast Contextual Adaptation with Neural Associative Memory for On-Device
Personalized Speech Recognition
- Title(参考訳): オンデバイス・パーソナライズされた音声認識のためのニューラル連想記憶を用いた高速文脈適応
- Authors: Tsendsuren Munkhdalai, Khe Chai Sim, Angad Chandorkar, Fan Gao, Mason
Chua, Trevor Strohman, Fran\c{c}oise Beaufays
- Abstract要約: 本稿では,デコーダに依存しない,デバイス上のパーソナライズに適した,モデルに基づくエンドツーエンドのコンテキスト適応手法を提案する。
デバイス上でのシミュレーション実験により,提案手法は従来手法よりも12%高い性能を示した。
- 参考スコア(独自算出の注目度): 16.367495908535894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast contextual adaptation has shown to be effective in improving Automatic
Speech Recognition (ASR) of rare words and when combined with an on-device
personalized training, it can yield an even better recognition result. However,
the traditional re-scoring approaches based on an external language model is
prone to diverge during the personalized training. In this work, we introduce a
model-based end-to-end contextual adaptation approach that is decoder-agnostic
and amenable to on-device personalization. Our on-device simulation experiments
demonstrate that the proposed approach outperforms the traditional re-scoring
technique by 12% relative WER and 15.7% entity mention specific F1-score in a
continues personalization scenario.
- Abstract(参考訳): 高速な文脈適応は、まれな単語の自動音声認識(asr)の改善に有効であり、デバイス上でのパーソナライズされたトレーニングと組み合わせると、さらに優れた認識結果が得られる。
しかし、外部言語モデルに基づく従来の再描画アプローチは、パーソナライズされたトレーニング中に多様化しがちである。
本研究では,デコーダに依存しない,デバイス上のパーソナライズに適したモデルに基づくエンドツーエンドのコンテキスト適応手法を提案する。
デバイス上でのシミュレーション実験により、提案手法は従来手法よりも12%向上し、15.7%のエンティティがF1スコアを継続パーソナライズシナリオで言及している。
関連論文リスト
- Personalized Adaptation via In-Context Preference Learning [20.042909385219716]
Preference Pretrained Transformer (PPT) は、オンラインユーザフィードバックを用いた適応型パーソナライズのための新しいアプローチである。
この結果から,大規模言語モデルにおけるスケーラブルで効率的なパーソナライズのためのコンテキスト内学習の可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-17T20:06:02Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Private Language Model Adaptation for Speech Recognition [15.726921748859393]
音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために不可欠である。
本稿では,ニューラルネットワーク言語モデル(NNLM)を,音声認識に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T00:15:43Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。