論文の概要: Speech separation with large-scale self-supervised learning
- arxiv url: http://arxiv.org/abs/2211.05172v1
- Date: Wed, 9 Nov 2022 20:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:49:16.369466
- Title: Speech separation with large-scale self-supervised learning
- Title(参考訳): 大規模自己教師付き学習による音声分離
- Authors: Zhuo Chen, Naoyuki Kanda, Jian Wu, Yu Wu, Xiaofei Wang, Takuya
Yoshioka, Jinyu Li, Sunit Sivasankaran, Sefik Emre Eskimez
- Abstract要約: WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
- 参考スコア(独自算出の注目度): 41.96634125460265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) methods such as WavLM have shown promising
speech separation (SS) results in small-scale simulation-based experiments. In
this work, we extend the exploration of the SSL-based SS by massively scaling
up both the pre-training data (more than 300K hours) and fine-tuning data (10K
hours). We also investigate various techniques to efficiently integrate the
pre-trained model with the SS network under a limited computation budget,
including a low frame rate SSL model training setup and a fine-tuning scheme
using only the part of the pre-trained model. Compared with a supervised
baseline and the WavLM-based SS model using feature embeddings obtained with
the previously released 94K hours trained WavLM, our proposed model obtains
15.9% and 11.2% of relative word error rate (WER) reductions, respectively, for
a simulated far-field speech mixture test set. For conversation transcription
on real meeting recordings using continuous speech separation, the proposed
model achieves 6.8% and 10.6% of relative WER reductions over the purely
supervised baseline on AMI and ICSI evaluation sets, respectively, while
reducing the computational cost by 38%.
- Abstract(参考訳): WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験で有望な音声分離(SS)結果を示している。
本研究では、事前トレーニングデータ(300K時間以上)と微調整データ(10K時間)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
また,低フレームレートSSLモデルトレーニングセットアップや,事前学習モデルの一部のみを用いた微調整スキームなど,限られた計算予算下で,事前学習モデルとSSネットワークを効率的に統合するための様々な手法についても検討する。
先行した94k時間訓練されたwavlmを用いた特徴埋め込みを用いた教師付きベースラインおよびwavlmベースのssモデルと比較すると,提案モデルはそれぞれ,遠方音素混合テストセットの相対単語誤り率 (wer) の15.9%と11.2%を得る。
連続音声分離を用いた実会議記録における会話の書き起こしでは,AMIおよびICSI評価セット上での純教師付きベースラインに対する相対的なWER削減の6.8%と10.6%を達成し,計算コストを38%削減した。
関連論文リスト
- Towards Early Prediction of Self-Supervised Speech Model Performance [23.934743358907895]
SSL音声モデルの事前学習の質について,教師なしの効率的な手法を提案する。
その結果, クラスタ品質とランクの指標は, 未ラベル音声の1時間における事前学習損失よりも, ダウンストリーム性能と相関することがわかった。
論文 参考訳(メタデータ) (2025-01-10T13:49:09Z) - Training Large ASR Encoders with Differential Privacy [18.624449993983106]
大規模音声モデルのための自己教師付き学習(SSL)手法は、ASRにおいて非常に効果的であることが証明されている。
大規模な事前学習モデルの公開展開に関心があるため、意図しない記憶と、トレーニングデータからの機密データポイントの漏洩に対する懸念が高まっている。
本稿では,SOTA Conformer ベースのエンコーダに差分プライベート(DP)事前学習を適用し,微調整データを公開していると仮定した下流 ASR タスクにおいて,その性能について検討する。
論文 参考訳(メタデータ) (2024-09-21T00:01:49Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models [90.99663022952498]
SuperBは自己教師付き学習(SSL)音声モデルの様々なタスクにおける一般化性を評価するために提案された。
SuperBは大規模なデータセットと多様なタスクのために高い計算コストを発生させる。
我々は,SUPERBに匹敵する結果のSSL音声モデルを効率よく評価する軽量ベンチマークであるMiniSUPERBを紹介する。
論文 参考訳(メタデータ) (2023-05-30T13:07:33Z) - MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module [3.42658286826597]
聴取者の平均オピニオンスコア(MOS)を予測する訓練可能な音声メトリックであるMooseNetを提案する。
本稿では,確率線形識別分析(PLDA)生成モデルを用いた新しい手法を提案する。
PLDAは136の発話でのみ訓練された場合,非微細なSSLモデルでうまく機能することを示す。
論文 参考訳(メタデータ) (2023-01-17T18:53:15Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Exploiting Large-scale Teacher-Student Training for On-device Acoustic
Models [15.237992590162593]
音響モデル(AM)の半教師付き学習(SSL)におけるAlexa音声チームの結果を示す。
少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練されたより小さなキャパシティモデルが、14.3%のワードエラー率削減(WERR)によってベースライン監視システムより優れていることを示した。
教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-11T02:23:40Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。