Fugu-MT 論文翻訳(概要): W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training

論文の概要: W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training

arxiv url: http://arxiv.org/abs/2108.06209v1
Date: Sat, 7 Aug 2021 06:29:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-22 14:37:48.568811
Title: W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training
Title（参考訳）: W2v-BERT:自己監督型音声事前学習のためのコントラスト学習とマスケッド言語モデリングの組み合わせ
Authors: Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu
Abstract要約: w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
参考スコア（独自算出の注目度）: 49.47516627019855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motivated by the success of masked language modeling~(MLM) in pre-training natural language processing models, we propose w2v-BERT that explores MLM for self-supervised speech representation learning. w2v-BERT is a framework that combines contrastive learning and MLM, where the former trains the model to discretize input continuous speech signals into a finite set of discriminative speech tokens, and the latter trains the model to learn contextualized speech representations via solving a masked prediction task consuming the discretized tokens. In contrast to existing MLM-based speech pre-training frameworks such as HuBERT, which relies on an iterative re-clustering and re-training process, or vq-wav2vec, which concatenates two separately trained modules, w2v-BERT can be optimized in an end-to-end fashion by solving the two self-supervised tasks~(the contrastive task and MLM) simultaneously. Our experiments show that w2v-BERT achieves competitive results compared to current state-of-the-art pre-trained models on the LibriSpeech benchmarks when using the Libri-Light~60k corpus as the unsupervised data. In particular, when compared to published models such as conformer-based wav2vec~2.0 and HuBERT, our model shows~5\% to~10\% relative WER reduction on the test-clean and test-other subsets. When applied to the Google's Voice Search traffic dataset, w2v-BERT outperforms our internal conformer-based wav2vec~2.0 by more than~30\% relatively.
Abstract（参考訳）: 事前学習型自然言語処理モデルにおけるマスク付き言語モデリング~(MLM)の成功に触発されて、自己教師付き音声表現学習のためのMLMを探索するw2v-BERTを提案する。 w2v-BERTは、コントラスト学習とMLMを組み合わせたフレームワークであり、前者は入力された連続音声信号を有限個の識別音声トークンに識別するモデルを訓練し、後者は、識別されたトークンを消費するマスク付き予測タスクを解くことで、文脈化された音声表現を学習するモデルを訓練する。反復的な再クラスタ化と再トレーニングプロセスに依存するHumberTや、別々に訓練された2つのモジュールを結合するvq-wav2vecのような既存のMLMベースのスピーチ事前トレーニングフレームワークとは対照的に、w2v-BERTは2つの自己管理タスク~(コントラストタスクとMLM)を同時に解くことで、エンドツーエンドで最適化することができる。実験の結果, Libri-Light~60kコーパスを教師なしデータとして用いた場合の, LibriSpeechベンチマークにおける最先端の事前訓練モデルと比較して, w2v-BERTは競合する結果が得られることがわかった。特に、コンバータベースのwav2vec~2.0やHuBERTのような公開モデルと比較すると、テストクリーンおよびテスト他のサブセットに対する相対 WER の減少率は~5\%から~10\%である。 googleの音声検索トラフィックデータセットに適用すると、w2v-bertは内部コンフォーメータベースのwav2vec~2.0を30%以上上回っています。

関連論文リスト

Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Comparing Discrete and Continuous Space LLMs for Speech Recognition [46.70297458685438]
本稿では,Large Language Model(LLM)に基づく音声認識(ASR)における離散的かつ連続的な音声表現について検討する。入力フィードバックと自己回帰フィードバックに基づいてLLMを連続空間モデルと離散空間モデルに分類する。本稿では,HuBERTエンコーダを用いて,LibriSpeech上で1.69%の最先端ワード誤り率(WER)をオープンソースで達成する。
論文参考訳（メタデータ） (2024-09-01T18:29:45Z)
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。 Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文参考訳（メタデータ） (2024-08-09T14:43:56Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文参考訳（メタデータ） (2021-10-20T00:59:36Z)
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding [23.367329217151084]
エンドツーエンドの音声言語理解タスクに対処するために,Speech-Text BERT (ST-BERT) と呼ばれる,モーダルな事前学習言語モデルを導入する。 ST-BERTは、音素の後方テキストとサブワードレベルのテキストを入力として、文脈化されたクロスモーダルアライメントを学習する。提案手法は,ドメイン固有音声テキストペアデータを用いたドメイン適応型事前学習により,さらなるSLU性能向上を示す。
論文参考訳（メタデータ） (2020-10-23T10:28:20Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。