論文の概要: Contextual Adapters for Personalized Speech Recognition in Neural
Transducers
- arxiv url: http://arxiv.org/abs/2205.13660v1
- Date: Thu, 26 May 2022 22:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 10:27:48.936922
- Title: Contextual Adapters for Personalized Speech Recognition in Neural
Transducers
- Title(参考訳): ニューラルトランスデューサにおける個人化音声認識のための文脈適応器
- Authors: Kanthashree Mysore Sathyendra, Thejaswi Muniyappa, Feng-Ju Chang, Jing
Liu, Jinru Su, Grant P. Strimel, Athanasios Mouchtaris, Siegfried Kunzmann
- Abstract要約: ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
- 参考スコア(独自算出の注目度): 16.628830937429388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personal rare word recognition in end-to-end Automatic Speech Recognition
(E2E ASR) models is a challenge due to the lack of training data. A standard
way to address this issue is with shallow fusion methods at inference time.
However, due to their dependence on external language models and the
deterministic approach to weight boosting, their performance is limited. In
this paper, we propose training neural contextual adapters for personalization
in neural transducer based ASR models. Our approach can not only bias towards
user-defined words, but also has the flexibility to work with pretrained ASR
models. Using an in-house dataset, we demonstrate that contextual adapters can
be applied to any general purpose pretrained ASR model to improve
personalization. Our method outperforms shallow fusion, while retaining
functionality of the pretrained models by not altering any of the model
weights. We further show that the adapter style training is superior to
full-fine-tuning of the ASR models on datasets with user-defined content.
- Abstract(参考訳): エンド・ツー・エンド自動音声認識(E2E ASR)モデルにおける個人的まれな単語認識は、トレーニングデータの欠如による課題である。
この問題に対処する標準的な方法は、推論時の浅い融合メソッドである。
しかしながら、外部言語モデルへの依存と重み付けに対する決定論的アプローチにより、その性能は制限されている。
本稿では,ニューラルトランスデューサを用いたASRモデルにおけるパーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルを扱う柔軟性も備えています。
社内データセットを用いて、汎用事前学習型ASRモデルにコンテキストアダプタを適用し、パーソナライズを改善することを実証する。
本手法は,モデルの重み付けを一切変更することなく,事前学習したモデルの機能を保ちながら,浅層融合よりも優れる。
さらに、ユーザ定義コンテンツを持つデータセット上でのASRモデルの完全なチューニングよりも、アダプタスタイルのトレーニングが優れていることを示す。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Adapting an Unadaptable ASR System [40.402050390096456]
我々は、最近リリースされたOpenAI Whisper ASRを、適応手法を評価するための大規模ASRシステムの例と考えている。
モデルへのアクセスを必要としないため、誤り訂正に基づくアプローチが採用されている。
次に、2つの異なる次元におけるシステムの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-01T23:54:11Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - A Light-weight contextual spelling correction model for customizing
transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。
実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。
このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-17T08:14:37Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。