論文の概要: Improving Unsupervised Sparsespeech Acoustic Models with Categorical
Reparameterization
- arxiv url: http://arxiv.org/abs/2005.14578v1
- Date: Fri, 29 May 2020 13:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:40:32.161251
- Title: Improving Unsupervised Sparsespeech Acoustic Models with Categorical
Reparameterization
- Title(参考訳): カテゴリー再パラメータ化による教師なし音声モデルの改善
- Authors: Benjamin Milde, Chris Biemann
- Abstract要約: 本研究では,Sparsespeechモデルを拡張して,確率変数をサンプリングし,擬似後生図を生成する。
新しい改良されたモデルは、限定的または無監督のASRのベンチマークであるLibri-Light corpusでトレーニングされ、評価されている。
改良されたモデルを用いて, 話者間でのABX誤差率を31.4%まで改善した。
- 参考スコア(独自算出の注目度): 31.977418525076626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Sparsespeech model is an unsupervised acoustic model that can generate
discrete pseudo-labels for untranscribed speech. We extend the Sparsespeech
model to allow for sampling over a random discrete variable, yielding
pseudo-posteriorgrams. The degree of sparsity in this posteriorgram can be
fully controlled after the model has been trained. We use the Gumbel-Softmax
trick to approximately sample from a discrete distribution in the neural
network and this allows us to train the network efficiently with standard
backpropagation. The new and improved model is trained and evaluated on the
Libri-Light corpus, a benchmark for ASR with limited or no supervision. The
model is trained on 600h and 6000h of English read speech. We evaluate the
improved model using the ABX error measure and a semi-supervised setting with
10h of transcribed speech. We observe a relative improvement of up to 31.4% on
ABX error rates across speakers on the test set with the improved Sparsespeech
model on 600h of speech data and further improvements when we scale the model
to 6000h.
- Abstract(参考訳): Sparsespeechモデルは教師なし音響モデルであり、非転写音声に対して個別の擬似ラベルを生成することができる。
Sparsespeechモデルを拡張して、ランダムな離散変数をサンプリングし、擬似後生図を生成する。
この後生図の間隔の程度は、モデルが訓練された後に完全に制御できる。
私たちはgumbel-softmaxのトリックを使って、ニューラルネットワークの離散分布からおよそサンプルを抽出し、標準的なバックプロパゲーションでネットワークを効率的にトレーニングできる。
新しい改良されたモデルは、限定的または無監督のASRのベンチマークであるLibri-Light corpusでトレーニングされ、評価されている。
モデルは600hと6000hの英語読解音声で訓練されている。
abx誤差尺度と半教師付きで10hの書き起こし音声を用いた改良モデルの評価を行った。
また,600hの音声データに対するSparsespeechモデルの改良により,話者間のABX誤り率を最大31.4%向上させるとともに,6000hに拡張した場合のさらなる改善を観察した。
関連論文リスト
- Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Scaling ASR Improves Zero and Few Shot Learning [23.896440724468246]
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
論文 参考訳(メタデータ) (2021-11-10T21:18:59Z) - Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-04-05T17:17:55Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。