論文の概要: W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training
- arxiv url: http://arxiv.org/abs/2108.06209v1
- Date: Sat, 7 Aug 2021 06:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-22 14:37:48.568811
- Title: W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training
- Title(参考訳): W2v-BERT:自己監督型音声事前学習のためのコントラスト学習とマスケッド言語モデリングの組み合わせ
- Authors: Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming
Pang, Yonghui Wu
- Abstract要約: w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 49.47516627019855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the success of masked language modeling~(MLM) in pre-training
natural language processing models, we propose w2v-BERT that explores MLM for
self-supervised speech representation learning. w2v-BERT is a framework that
combines contrastive learning and MLM, where the former trains the model to
discretize input continuous speech signals into a finite set of discriminative
speech tokens, and the latter trains the model to learn contextualized speech
representations via solving a masked prediction task consuming the discretized
tokens. In contrast to existing MLM-based speech pre-training frameworks such
as HuBERT, which relies on an iterative re-clustering and re-training process,
or vq-wav2vec, which concatenates two separately trained modules, w2v-BERT can
be optimized in an end-to-end fashion by solving the two self-supervised
tasks~(the contrastive task and MLM) simultaneously. Our experiments show that
w2v-BERT achieves competitive results compared to current state-of-the-art
pre-trained models on the LibriSpeech benchmarks when using the Libri-Light~60k
corpus as the unsupervised data. In particular, when compared to published
models such as conformer-based wav2vec~2.0 and HuBERT, our model shows~5\%
to~10\% relative WER reduction on the test-clean and test-other subsets. When
applied to the Google's Voice Search traffic dataset, w2v-BERT outperforms our
internal conformer-based wav2vec~2.0 by more than~30\% relatively.
- Abstract(参考訳): 事前学習型自然言語処理モデルにおけるマスク付き言語モデリング~(MLM)の成功に触発されて、自己教師付き音声表現学習のためのMLMを探索するw2v-BERTを提案する。
w2v-BERTは、コントラスト学習とMLMを組み合わせたフレームワークであり、前者は入力された連続音声信号を有限個の識別音声トークンに識別するモデルを訓練し、後者は、識別されたトークンを消費するマスク付き予測タスクを解くことで、文脈化された音声表現を学習するモデルを訓練する。
反復的な再クラスタ化と再トレーニングプロセスに依存するHumberTや、別々に訓練された2つのモジュールを結合するvq-wav2vecのような既存のMLMベースのスピーチ事前トレーニングフレームワークとは対照的に、w2v-BERTは2つの自己管理タスク~(コントラストタスクとMLM)を同時に解くことで、エンドツーエンドで最適化することができる。
実験の結果, Libri-Light~60kコーパスを教師なしデータとして用いた場合の, LibriSpeechベンチマークにおける最先端の事前訓練モデルと比較して, w2v-BERTは競合する結果が得られることがわかった。
特に、コンバータベースのwav2vec~2.0やHuBERTのような公開モデルと比較すると、テストクリーンおよびテスト他のサブセットに対する相対 WER の減少率は~5\%から~10\%である。
googleの音声検索トラフィックデータセットに適用すると、w2v-bertは内部コンフォーメータベースのwav2vec~2.0を30%以上上回っています。
関連論文リスト
- VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Ask2Mask: Guided Data Selection for Masked Speech Modeling [25.716834361963468]
Masked Speech Modeling (MSM) は、発話中にランダムにマスキングされた音声フレーム上の表現を学習する。
教師なしのすべての音声サンプルを同じ重さで扱うことで、すべてのサンプルが意味のある表現を学ぶための関連情報を持っているわけではないため、学習を妨げる。
我々は,MSM事前トレーニング中に特定のサンプルに焦点をあてる新しいアプローチである ask2mask (ATM) を提案する。
論文 参考訳(メタデータ) (2022-02-24T17:34:54Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken
Language Understanding [23.367329217151084]
エンドツーエンドの音声言語理解タスクに対処するために,Speech-Text BERT (ST-BERT) と呼ばれる,モーダルな事前学習言語モデルを導入する。
ST-BERTは、音素の後方テキストとサブワードレベルのテキストを入力として、文脈化されたクロスモーダルアライメントを学習する。
提案手法は,ドメイン固有音声テキストペアデータを用いたドメイン適応型事前学習により,さらなるSLU性能向上を示す。
論文 参考訳(メタデータ) (2020-10-23T10:28:20Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。