論文の概要: Wav2vec-S: Semi-Supervised Pre-Training for Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.04484v1
- Date: Sat, 9 Oct 2021 07:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:21:39.310387
- Title: Wav2vec-S: Semi-Supervised Pre-Training for Speech Recognition
- Title(参考訳): Wav2vec-S: 音声認識のための半教師付き事前学習
- Authors: Han Zhu, Li Wang, Ying Hou, Jindong Wang, Gaofeng Cheng, Pengyuan
Zhang, Yonghong Yan
- Abstract要約: 自己教師付き事前学習は、音声認識(ASR)の性能を劇的に改善した
既存の自己指導型事前学習アプローチの多くはタスク非依存であり、様々な下流タスクに適用できる。
我々はwav2vec-Sと呼ばれる新しい事前学習パラダイムを提案し、このギャップを埋めるためにタスク固有の半教師付き事前学習を使用する。
- 参考スコア(独自算出の注目度): 44.347739529374124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training has dramatically improved the performance of
automatic speech recognition (ASR). However, most existing self-supervised
pre-training approaches are task-agnostic, i.e., could be applied to various
downstream tasks. And there is a gap between the task-agnostic pre-training and
the task-specific downstream fine-tuning, which may degrade the downstream
performance. In this work, we propose a novel pre-training paradigm called
wav2vec-S, where we use task-specific semi-supervised pre-training to bridge
this gap. Specifically, the semi-supervised pre-training is conducted on the
basis of self-supervised pre-training such as wav2vec 2.0. Experiments on ASR
show that compared to wav2vec 2.0, wav2vec-S only requires marginal increment
of pre-training time but could significantly improve ASR performance on
in-domain, cross-domain and cross-lingual datasets. The average relative WER
reductions are 26.3% and 6.3% for 1h and 10h fine-tuning, respectively.
- Abstract(参考訳): 自己教師付き事前学習は自動音声認識(ASR)の性能を劇的に改善した。
しかし、既存の自己指導型事前学習アプローチのほとんどはタスク非依存であり、様々な下流タスクに適用できる。
また、タスクに依存しない事前トレーニングとタスク固有の下流の微調整との間にはギャップがあり、下流のパフォーマンスが低下する可能性がある。
本研究では,このギャップを埋めるために,タスク固有の半教師付き事前学習を行うwav2vec-Sという新しい事前学習パラダイムを提案する。
具体的には、wav2vec 2.0のような自己教師付き事前訓練に基づいて半教師付き事前訓練を行う。
ASRの実験によると、wav2vec 2.0と比較して、wav2vec-Sはトレーニング前の時間を極端に増やすだけで、ドメイン内、ドメイン間、言語間データセットでのASRのパフォーマンスを大幅に改善できる。
平均平均wer削減率は26.3%であり、1hと10hの微調整では6.3%である。
関連論文リスト
- Efficient Stagewise Pretraining via Progressive Subnetworks [55.65819977062729]
我々は、トレーニング全体を通して完全なモデルを維持できる代替フレームワークであるプログレッシブサブネットワークトレーニングを提案し、各ステップでモデル内でのみトレインワークを行う。
RaPTr は BERT と UL2 言語モデルの事前トレーニング損失が向上すると同時に,標準的なトレーニングに比べて 20-33% のFLOP の削減が要求される。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Revisiting the Power of Prompt for Visual Tuning [53.102284329377056]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。
これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-12-20T06:02:12Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An
Extensive Benchmark on Air Traffic Control Communications [1.3800173438685746]
本研究は,事前学習と下流微調整の相違がデータに与える影響について検討する。
提案したモデルを4つの挑戦的なATCテストセットでベンチマークする。
また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。
論文 参考訳(メタデータ) (2022-03-31T06:10:42Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Task-aware Warping Factors in Mask-based Speech Enhancement [31.913984833849753]
マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。
1つは訓練段階における音声維持とノイズ除去のバランスを制御し、もう1つは特定の下流タスクに適用されたSEパワーを制御する。
マスクベースのSE法に提案した2重ウォーピング因子アプローチを適用することは容易である。
論文 参考訳(メタデータ) (2021-08-27T05:57:37Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - Joint Masked CPC and CTC Training for ASR [29.41599824919278]
ラベル付きデータとラベル付きデータの両方を利用するASRモデルの単段階トレーニングを実演する。
本研究では、教師なしデータを用いた下流ASRタスクにおいて、この共同学習手法が直接最適化されていることを示す。
論文 参考訳(メタデータ) (2020-10-30T20:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。