論文の概要: W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training
- arxiv url: http://arxiv.org/abs/2108.06209v1
- Date: Sat, 7 Aug 2021 06:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-22 14:37:48.568811
- Title: W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training
- Title(参考訳): W2v-BERT:自己監督型音声事前学習のためのコントラスト学習とマスケッド言語モデリングの組み合わせ
- Authors: Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming
Pang, Yonghui Wu
- Abstract要約: w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 49.47516627019855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the success of masked language modeling~(MLM) in pre-training
natural language processing models, we propose w2v-BERT that explores MLM for
self-supervised speech representation learning. w2v-BERT is a framework that
combines contrastive learning and MLM, where the former trains the model to
discretize input continuous speech signals into a finite set of discriminative
speech tokens, and the latter trains the model to learn contextualized speech
representations via solving a masked prediction task consuming the discretized
tokens. In contrast to existing MLM-based speech pre-training frameworks such
as HuBERT, which relies on an iterative re-clustering and re-training process,
or vq-wav2vec, which concatenates two separately trained modules, w2v-BERT can
be optimized in an end-to-end fashion by solving the two self-supervised
tasks~(the contrastive task and MLM) simultaneously. Our experiments show that
w2v-BERT achieves competitive results compared to current state-of-the-art
pre-trained models on the LibriSpeech benchmarks when using the Libri-Light~60k
corpus as the unsupervised data. In particular, when compared to published
models such as conformer-based wav2vec~2.0 and HuBERT, our model shows~5\%
to~10\% relative WER reduction on the test-clean and test-other subsets. When
applied to the Google's Voice Search traffic dataset, w2v-BERT outperforms our
internal conformer-based wav2vec~2.0 by more than~30\% relatively.
- Abstract(参考訳): 事前学習型自然言語処理モデルにおけるマスク付き言語モデリング~(MLM)の成功に触発されて、自己教師付き音声表現学習のためのMLMを探索するw2v-BERTを提案する。
w2v-BERTは、コントラスト学習とMLMを組み合わせたフレームワークであり、前者は入力された連続音声信号を有限個の識別音声トークンに識別するモデルを訓練し、後者は、識別されたトークンを消費するマスク付き予測タスクを解くことで、文脈化された音声表現を学習するモデルを訓練する。
反復的な再クラスタ化と再トレーニングプロセスに依存するHumberTや、別々に訓練された2つのモジュールを結合するvq-wav2vecのような既存のMLMベースのスピーチ事前トレーニングフレームワークとは対照的に、w2v-BERTは2つの自己管理タスク~(コントラストタスクとMLM)を同時に解くことで、エンドツーエンドで最適化することができる。
実験の結果, Libri-Light~60kコーパスを教師なしデータとして用いた場合の, LibriSpeechベンチマークにおける最先端の事前訓練モデルと比較して, w2v-BERTは競合する結果が得られることがわかった。
特に、コンバータベースのwav2vec~2.0やHuBERTのような公開モデルと比較すると、テストクリーンおよびテスト他のサブセットに対する相対 WER の減少率は~5\%から~10\%である。
googleの音声検索トラフィックデータセットに適用すると、w2v-bertは内部コンフォーメータベースのwav2vec~2.0を30%以上上回っています。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Comparing Discrete and Continuous Space LLMs for Speech Recognition [46.70297458685438]
本稿では,Large Language Model(LLM)に基づく音声認識(ASR)における離散的かつ連続的な音声表現について検討する。
入力フィードバックと自己回帰フィードバックに基づいてLLMを連続空間モデルと離散空間モデルに分類する。
本稿では,HuBERTエンコーダを用いて,LibriSpeech上で1.69%の最先端ワード誤り率(WER)をオープンソースで達成する。
論文 参考訳(メタデータ) (2024-09-01T18:29:45Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken
Language Understanding [23.367329217151084]
エンドツーエンドの音声言語理解タスクに対処するために,Speech-Text BERT (ST-BERT) と呼ばれる,モーダルな事前学習言語モデルを導入する。
ST-BERTは、音素の後方テキストとサブワードレベルのテキストを入力として、文脈化されたクロスモーダルアライメントを学習する。
提案手法は,ドメイン固有音声テキストペアデータを用いたドメイン適応型事前学習により,さらなるSLU性能向上を示す。
論文 参考訳(メタデータ) (2020-10-23T10:28:20Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。