論文の概要: Wav2vec-S: Semi-Supervised Pre-Training for Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.04484v1
- Date: Sat, 9 Oct 2021 07:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:21:39.310387
- Title: Wav2vec-S: Semi-Supervised Pre-Training for Speech Recognition
- Title(参考訳): Wav2vec-S: 音声認識のための半教師付き事前学習
- Authors: Han Zhu, Li Wang, Ying Hou, Jindong Wang, Gaofeng Cheng, Pengyuan
Zhang, Yonghong Yan
- Abstract要約: 自己教師付き事前学習は、音声認識(ASR)の性能を劇的に改善した
既存の自己指導型事前学習アプローチの多くはタスク非依存であり、様々な下流タスクに適用できる。
我々はwav2vec-Sと呼ばれる新しい事前学習パラダイムを提案し、このギャップを埋めるためにタスク固有の半教師付き事前学習を使用する。
- 参考スコア(独自算出の注目度): 44.347739529374124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training has dramatically improved the performance of
automatic speech recognition (ASR). However, most existing self-supervised
pre-training approaches are task-agnostic, i.e., could be applied to various
downstream tasks. And there is a gap between the task-agnostic pre-training and
the task-specific downstream fine-tuning, which may degrade the downstream
performance. In this work, we propose a novel pre-training paradigm called
wav2vec-S, where we use task-specific semi-supervised pre-training to bridge
this gap. Specifically, the semi-supervised pre-training is conducted on the
basis of self-supervised pre-training such as wav2vec 2.0. Experiments on ASR
show that compared to wav2vec 2.0, wav2vec-S only requires marginal increment
of pre-training time but could significantly improve ASR performance on
in-domain, cross-domain and cross-lingual datasets. The average relative WER
reductions are 26.3% and 6.3% for 1h and 10h fine-tuning, respectively.
- Abstract(参考訳): 自己教師付き事前学習は自動音声認識(ASR)の性能を劇的に改善した。
しかし、既存の自己指導型事前学習アプローチのほとんどはタスク非依存であり、様々な下流タスクに適用できる。
また、タスクに依存しない事前トレーニングとタスク固有の下流の微調整との間にはギャップがあり、下流のパフォーマンスが低下する可能性がある。
本研究では,このギャップを埋めるために,タスク固有の半教師付き事前学習を行うwav2vec-Sという新しい事前学習パラダイムを提案する。
具体的には、wav2vec 2.0のような自己教師付き事前訓練に基づいて半教師付き事前訓練を行う。
ASRの実験によると、wav2vec 2.0と比較して、wav2vec-Sはトレーニング前の時間を極端に増やすだけで、ドメイン内、ドメイン間、言語間データセットでのASRのパフォーマンスを大幅に改善できる。
平均平均wer削減率は26.3%であり、1hと10hの微調整では6.3%である。
関連論文リスト
- Exploring the Benefit of Activation Sparsity in Pre-training [117.25661020250658]
プレトレーニング中に活性化特性がどう変化するかを検討した。
本稿では,Sparse-Dense Learning (SSD)を提案する。
SSDは同じモデルサイズで同等のパフォーマンスを実現し、事前トレーニングコストを削減する。
論文 参考訳(メタデータ) (2024-10-04T13:53:33Z) - SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining [65.9024395309316]
無人航空機(UAV)が捉えた航空映像の自己監督型事前学習アルゴリズムについて紹介する。
我々は,UAVビデオの事前学習効率と下流行動認識性能を向上させるために,事前学習プロセスを通じて人体知識を取り入れた。
論文 参考訳(メタデータ) (2024-09-26T21:15:22Z) - Open Implementation and Study of BEST-RQ for Speech Processing [25.678292575349648]
ランダム投影量子化器(BEST-RQ)を用いたBERTに基づく音声事前学習は、音声認識(ASR)において優れた性能を示した。
ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-07T13:11:37Z) - Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。
これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-12-20T06:02:12Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - On-demand compute reduction with stochastic wav2vec 2.0 [63.22845151306881]
本稿では、wav2vec 2.0(W2V2)モデルに対するオンデマンドの計算量削減のための圧縮を提案する。
960hのLibrispeechデータセットで事前学習し、10hの転写データに微調整を行った結果,同じモデルを用いて単語誤り率(WER)と推測時間とのスムーズなトレードオフが得られた。
論文 参考訳(メタデータ) (2022-04-25T19:25:46Z) - How Does Pre-trained Wav2Vec2.0 Perform on Domain Shifted ASR? An
Extensive Benchmark on Air Traffic Control Communications [1.3800173438685746]
本研究は,事前学習と下流微調整の相違がデータに与える影響について検討する。
提案したモデルを4つの挑戦的なATCテストセットでベンチマークする。
また、微調整データサイズがWERに与える影響を5分(2時間)から15時間まで調べる。
論文 参考訳(メタデータ) (2022-03-31T06:10:42Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - Joint Masked CPC and CTC Training for ASR [29.41599824919278]
ラベル付きデータとラベル付きデータの両方を利用するASRモデルの単段階トレーニングを実演する。
本研究では、教師なしデータを用いた下流ASRタスクにおいて、この共同学習手法が直接最適化されていることを示す。
論文 参考訳(メタデータ) (2020-10-30T20:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。