論文の概要: Small energy masking for improved neural network training for end-to-end
speech recognition
- arxiv url: http://arxiv.org/abs/2002.06312v1
- Date: Sat, 15 Feb 2020 03:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 23:19:04.391973
- Title: Small energy masking for improved neural network training for end-to-end
speech recognition
- Title(参考訳): 終末音声認識のためのニューラルネットワーク訓練のための小エネルギーマスキング
- Authors: Chanwoo Kim, Kwangyoun Kim, and Sathish Reddy Indurthi
- Abstract要約: 本研究では,一定の閾値未満の入力をマスクするSmall Energy Masking(SEM)アルゴリズムを提案する。
SEMアルゴリズムは、標準のLibriSpeechテストクリーンおよびテスト他のセットにおいて、ワードエラー率(WER)が比較的1.2 %と13.5 %改善されていることを示している。
また,Transformer LMを用いた浅層融解法により,LibriSpeechテストクリーンセットでは2.62 % WER,LibriSpeechテストクリーンセットでは7.87 % WERを得た。
- 参考スコア(独自算出の注目度): 16.118384331190207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a Small Energy Masking (SEM) algorithm, which masks
inputs having values below a certain threshold. More specifically, a
time-frequency bin is masked if the filterbank energy in this bin is less than
a certain energy threshold. A uniform distribution is employed to randomly
generate the ratio of this energy threshold to the peak filterbank energy of
each utterance in decibels. The unmasked feature elements are scaled so that
the total sum of the feature values remain the same through this masking
procedure. This very simple algorithm shows relatively 11.2 % and 13.5 % Word
Error Rate (WER) improvements on the standard LibriSpeech test-clean and
test-other sets over the baseline end-to-end speech recognition system.
Additionally, compared to the input dropout algorithm, SEM algorithm shows
relatively 7.7 % and 11.6 % improvements on the same LibriSpeech test-clean and
test-other sets. With a modified shallow-fusion technique with a Transformer
LM, we obtained a 2.62 % WER on the LibriSpeech test-clean set and a 7.87 % WER
on the LibriSpeech test-other set.
- Abstract(参考訳): 本稿では,特定のしきい値以下の値を持つ入力をマスキングするsem(small energy masking)アルゴリズムを提案する。
より具体的には、このビンのフィルタバンクエネルギーが特定のエネルギー閾値未満であれば、時間周波数ビンはマスクされる。
デシベルにおける各発話のピークフィルタバンクエネルギーに対するこのエネルギー閾値の比をランダムに生成するために均一分布を用いる。
マスクされていない特徴要素は、このマスキング手順により特徴値の総和が同じになるようにスケールされる。
この非常に単純なアルゴリズムは、標準のLibriSpeechテストクリーンと、ベースラインのエンドツーエンド音声認識システムに対する他のテストセットに対して、比較的1.2 %と13.5 %のワードエラー率(WER)が改善されている。
さらに、入力ドロップアウトアルゴリズムと比較して、semアルゴリズムは、同じlibrispeechテストクリーンおよびテストその他のセットに対して、比較的7.7 %と11.6 %の改善を示す。
また,Transformer LMを用いた浅層拡散法により,LibriSpeechテストクリーンセットでは2.62 % WER,LibriSpeechテストクリーンセットでは7.87 % WERを得た。
関連論文リスト
- MaskCycleGAN-based Whisper to Normal Speech Conversion [0.0]
本稿では,通常の音声への変換のためのMaskCycleGANアプローチを提案する。
マスクパラメータをチューニングし,音声活動検出器で信号の事前処理を行うことで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-27T06:07:18Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Mask Detection and Breath Monitoring from Speech: on Data Augmentation,
Feature Representation and Modeling [22.170442344804904]
本稿では,Interspeech COMPARE Challenge 2020におけるMask and Breathing Sub-Challengeについて紹介する。
マスク検出タスクでは,フィルタバンクエネルギー,性別認識機能,話者認識機能を備えた深層畳み込みニューラルネットワークを訓練する。
音声呼吸監視タスクでは,Bi-LSTM構造に基づく異なるボトルネック特徴について検討する。
論文 参考訳(メタデータ) (2020-08-12T08:42:50Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z) - Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation [19.72987718461291]
音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的な促進手法を提案する。
我々は、複雑な機械学習モデルの代替として、学習したハッシュコードを単一チャネルの音声認識タスクに使用する。
論文 参考訳(メタデータ) (2020-02-14T20:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。