論文の概要: Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR
Models using Hybrid Generated Pseudotranscripts
- arxiv url: http://arxiv.org/abs/2106.07716v1
- Date: Mon, 14 Jun 2021 19:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 09:46:26.173253
- Title: Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR
Models using Hybrid Generated Pseudotranscripts
- Title(参考訳): ハイブリッドPseudotranscriptを用いた低資源系列列列ASRモデルにおけるドメインミスマッチの克服
- Authors: Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover, Owen
Kimball
- Abstract要約: シークエンス・ツー・シーケンス(seq2seq)モデルは、音声認識のためのハイブリッドモデルと競合する。
ハイブリッドモデルとSeq2seqモデルの間には、そのようなデータ条件に大きな初期ギャップがあることが示される。
私たちは5つの言語の平均単語エラー率(WER)を66.7%から29.0%に改善しました。
- 参考スコア(独自算出の注目度): 7.323753263640563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence-to-sequence (seq2seq) models are competitive with hybrid models for
automatic speech recognition (ASR) tasks when large amounts of training data
are available. However, data sparsity and domain adaptation are more
problematic for seq2seq models than their hybrid counterparts. We examine
corpora of five languages from the IARPA MATERIAL program where the transcribed
data is conversational telephone speech (CTS) and evaluation data is broadcast
news (BN). We show that there is a sizable initial gap in such a data condition
between hybrid and seq2seq models, and the hybrid model is able to further
improve through the use of additional language model (LM) data. We use an
additional set of untranscribed data primarily in the BN domain for
semisupervised training. In semisupervised training, a seed model trained on
transcribed data generates hypothesized transcripts for unlabeled
domain-matched data for further training. By using a hybrid model with an
expanded language model for pseudotranscription, we are able to improve our
seq2seq model from an average word error rate (WER) of 66.7% across all five
languages to 29.0% WER. While this puts the seq2seq model at a competitive
operating point, hybrid models are still able to use additional LM data to
maintain an advantage.
- Abstract(参考訳): sequence-to-sequence(seq2seq)モデルは、大量のトレーニングデータが利用可能である場合、自動音声認識(asr)タスク用のハイブリッドモデルと競合する。
しかし、Seq2seqモデルではデータの分散性とドメイン適応がハイブリッドモデルよりも問題となる。
書き起こされたデータは会話型電話音声(cts)であり、評価データは放送ニュース(bn)であるiarpa資料プログラムから5つの言語のコーパスを調べる。
ハイブリッドモデルとSeq2seqモデルの間には,そのようなデータ条件に大きな初期ギャップがあることが示され,このハイブリッドモデルでは,追加言語モデル(LM)データを用いることで,さらなる改善が可能である。
我々は、BNドメインで主に書き起こされていないデータの追加セットを半教師あり訓練に使用します。
半教師付きトレーニングでは、転写されたデータに基づいて訓練されたシードモデルが、さらなるトレーニングのために未ラベルのドメインマッチングデータの仮説化された転写文を生成する。
擬似書き起こしのための拡張された言語モデルを持つハイブリッドモデルを使用することで、seq2seqモデルを5つの言語で66.7%の平均単語誤り率(wer)から29.0% werに改善することができる。
これにより、Seq2seqモデルは競争力のある運用ポイントとなるが、ハイブリッドモデルはさらなるLMデータを使用して優位性を維持することができる。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Fusing Sentence Embeddings Into LSTM-based Autoregressive Language
Models [20.24851041248274]
本稿では,プレフィックス埋め込みを用いたLSTMに基づく自己回帰言語モデルを提案する。
融合は、異なるドメインからのデータセットへの転送後に保存される難易度(16.74$rightarrow$ 15.80)を確実に低下させるのに役立つ。
また,次の単語推定値と人間の読解時間とを相関させることにより,最も優れた融合モデルの評価を行った。
論文 参考訳(メタデータ) (2022-08-04T02:13:03Z) - Conditional set generation using Seq2seq models [52.516563721766445]
条件セット生成は、トークンの入力シーケンスからセットへのマッピングを学習する。
シーケンス・ツー・シーケンス(Seq2seq)モデルは、モデルセット生成において一般的な選択である。
本稿では,ラベル順序空間上の情報的順序を効果的に抽出する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-25T04:17:50Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。