論文の概要: Training Autoregressive Speech Recognition Models with Limited in-domain
Supervision
- arxiv url: http://arxiv.org/abs/2210.15135v1
- Date: Thu, 27 Oct 2022 02:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:14:31.420662
- Title: Training Autoregressive Speech Recognition Models with Limited in-domain
Supervision
- Title(参考訳): ドメイン内限定による自己回帰音声認識モデルの訓練
- Authors: Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover
- Abstract要約: 会話音声の分野における限定的な監督について検討する。
我々はXLS-Rモデルをオープンソースの読み上げ音声データで拡張する。
擬似転写にXLS-Rモデルを用いることで、はるかに小さな自己回帰モデルが微調整されたXLS-Rモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 6.519568453645212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in self-supervised learning have significantly reduced the amount of
transcribed audio required for training. However, the majority of work in this
area is focused on read speech. We explore limited supervision in the domain of
conversational speech. While we assume the amount of in-domain data is limited,
we augment the model with open source read speech data. The XLS-R model has
been shown to perform well with limited adaptation data and serves as a strong
baseline. We use untranscribed data for self-supervised learning and
semi-supervised training in an autoregressive encoder-decoder model. We
demonstrate that by using the XLS-R model for pseudotranscription, a much
smaller autoregressive model can outperform a finetuned XLS-R model when
transcribed in-domain data is limited, reducing WER by as much as 8% absolute.
- Abstract(参考訳): 自己教師付き学習の進歩は、訓練に必要な書き起こし音声の量を大幅に削減した。
しかし、この分野の作業の大部分は読み上げスピーチに重点を置いている。
会話音声分野における限られた監督について検討する。
ドメイン内データの量は限られていると仮定する一方で、オープンソースの読み上げ音声データでモデルを増強する。
XLS-Rモデルは、限られた適応データでうまく機能し、強力なベースラインとして機能することが示されている。
自己回帰エンコーダ・デコーダモデルを用いて,自己教師あり学習と半教師あり学習に非転写データを用いる。
擬似転写にXLS-Rモデルを用いることで、ドメイン内データの書き起こしが制限された場合、はるかに小さな自己回帰モデルは微調整されたXLS-Rモデルよりも優れ、WERを最大8%削減できることを示した。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Exploring Representation Learning for Small-Footprint Keyword Spotting [11.586285744728068]
KWSの主な課題は、ラベル付きデータと限られたデバイスリソースである。
これらの課題に対処するために、自己指導型コントラスト学習と事前学習モデルによる自己学習によるKWSの表現学習について検討する。
音声コマンドデータセットの実験では、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T07:09:26Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - LT-LM: a novel non-autoregressive language model for single-shot lattice
rescoring [55.16665077221941]
本稿では,格子全体をモデルへの単一呼び出しで処理する新しいリスコリング手法を提案する。
当社のリコリングポリシーの主な特徴は、新しい非回帰的格子変換言語モデル(LT-LM)です。
論文 参考訳(メタデータ) (2021-04-06T14:06:07Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data [44.48235209327319]
ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
論文 参考訳(メタデータ) (2020-10-22T22:41:33Z) - Improving Unsupervised Sparsespeech Acoustic Models with Categorical
Reparameterization [31.977418525076626]
本研究では,Sparsespeechモデルを拡張して,確率変数をサンプリングし,擬似後生図を生成する。
新しい改良されたモデルは、限定的または無監督のASRのベンチマークであるLibri-Light corpusでトレーニングされ、評価されている。
改良されたモデルを用いて, 話者間でのABX誤差率を31.4%まで改善した。
論文 参考訳(メタデータ) (2020-05-29T13:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。