論文の概要: Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.15836v1
- Date: Fri, 29 Oct 2021 14:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 16:02:34.744741
- Title: Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition
- Title(参考訳): 低資源自己回帰音声認識のための教師なし学習とテキスト拡張学習の併用
- Authors: Chak-Fai Li, Francis Keith, William Hartmann, Matthew Snover
- Abstract要約: 我々は教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
追加のテキストデータは、外部言語モデルによって組み込まれている。
最終的なパフォーマンスは、半教師付きトレーニングにCTCベースのデコードを使用する場合、2%向上した絶対値である。
- 参考スコア(独自算出の注目度): 7.067186994804316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in unsupervised representation learning have demonstrated the
impact of pretraining on large amounts of read speech. We adapt these
techniques for domain adaptation in low-resource -- both in terms of data and
compute -- conversational and broadcast domains. Moving beyond CTC, we pretrain
state-of-the-art Conformer models in an unsupervised manner. While the
unsupervised approach outperforms traditional semi-supervised training, the
techniques are complementary. Combining the techniques is a 5% absolute
improvement in WER, averaged over all conditions, compared to semi-supervised
training alone. Additional text data is incorporated through external language
models. By using CTC-based decoding, we are better able to take advantage of
the additional text data. When used as a transcription model, it allows the
Conformer model to better incorporate the knowledge from the language model
through semi-supervised training than shallow fusion. Final performance is an
additional 2% better absolute when using CTC-based decoding for semi-supervised
training compared to shallow fusion.
- Abstract(参考訳): 教師なし表現学習の最近の進歩は、大量の読み上げ音声に対する事前学習の影響を示している。
私たちはこれらのテクニックを、データと計算の両面で、低リソースのドメイン適応に適応させます。
CTCを超えて、教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
教師なしのアプローチは従来の半教師なしのトレーニングよりも優れていますが、テクニックは補完的です。
技術の組み合わせは、半監督訓練のみと比較して、すべての条件で平均されるwerの5%の絶対的な改善である。
追加のテキストデータには外部言語モデルが組み込まれている。
CTCベースのデコーディングを使用することで、追加のテキストデータを活用することができる。
転写モデルとして使用する場合、浅い融合よりも半教師付きトレーニングによって、言語モデルからの知識をよりうまく取り入れることができる。
セミ教師付きトレーニングにctcベースのデコードを使用する場合、浅い融合に比べて最終的なパフォーマンスが2%向上する。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Progressive Class Semantic Matching for Semi-supervised Text
Classification [26.794533973357403]
半教師付き学習と事前学習言語モデルとの結婚について検討する。
大規模な実験により,本手法がベースラインに顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-20T13:59:03Z) - Neural Semi-supervised Learning for Text Classification Under
Large-Scale Pretraining [51.19885385587916]
我々は、大規模LM事前学習の文脈下で、テキスト分類タスクにおける半教師あり学習の研究を行う。
我々の研究は、大規模事前学習の文脈下でのセミ教師付き学習モデルの振る舞いを理解するための最初のステップである。
論文 参考訳(メタデータ) (2020-11-17T13:39:05Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。