論文の概要: Frame-level SpecAugment for Deep Convolutional Neural Networks in Hybrid
ASR Systems
- arxiv url: http://arxiv.org/abs/2012.04094v1
- Date: Mon, 7 Dec 2020 22:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:02:19.804838
- Title: Frame-level SpecAugment for Deep Convolutional Neural Networks in Hybrid
ASR Systems
- Title(参考訳): ハイブリッドASRシステムにおける深部畳み込みニューラルネットワークのフレームレベル仕様化
- Authors: Xinwei Li, Yuanyuan Zhang, Xiaodan Zhuang, Daben Liu
- Abstract要約: 深部畳み込みニューラルネットワーク(CNN)の性能向上のためのフレームレベルSpecAugment法を提案する。
発話レベルSpecAugmentと同様に、f-SpecAugmentはタイムワーピング、周波数マスキング、タイムマスキングの3つの変換を行います。
最大25000時間のトレーニングデータで訓練された50層自己Normalizing Deep CNN(SNDCNN)音響モデルに対するf-SpecAugmentの評価を行った。
- 参考スコア(独自算出の注目度): 6.697155937075997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by SpecAugment -- a data augmentation method for end-to-end ASR
systems, we propose a frame-level SpecAugment method (f-SpecAugment) to improve
the performance of deep convolutional neural networks (CNN) for hybrid HMM
based ASR systems. Similar to the utterance level SpecAugment, f-SpecAugment
performs three transformations: time warping, frequency masking, and time
masking. Instead of applying the transformations at the utterance level,
f-SpecAugment applies them to each convolution window independently during
training. We demonstrate that f-SpecAugment is more effective than the
utterance level SpecAugment for deep CNN based hybrid models. We evaluate the
proposed f-SpecAugment on 50-layer Self-Normalizing Deep CNN (SNDCNN) acoustic
models trained with up to 25000 hours of training data. We observe
f-SpecAugment reduces WER by 0.5-4.5% relatively across different ASR tasks for
four languages. As the benefits of augmentation techniques tend to diminish as
training data size increases, the large scale training reported is important in
understanding the effectiveness of f-SpecAugment. Our experiments demonstrate
that even with 25k training data, f-SpecAugment is still effective. We also
demonstrate that f-SpecAugment has benefits approximately equivalent to
doubling the amount of training data for deep CNNs.
- Abstract(参考訳): エンドツーエンドのASRシステムのためのデータ拡張手法であるSpecAugmentに着想を得て、ハイブリッドHMMベースのASRシステムのための深層畳み込みニューラルネットワーク(CNN)の性能を改善するためのフレームレベルSpecAugment法(f-SpecAugment)を提案する。
f-specaugmentは発話レベルの仕様と同様に、タイムワーピング、周波数マスキング、タイムマスキングの3つの変換を行う。
発話レベルで変換を適用する代わりに、f-specaugmentは各畳み込みウィンドウにそれらをトレーニング中に独立に適用する。
深層CNNに基づくハイブリッドモデルにおいて,f-SpecAugmentは発話レベルSpecAugmentよりも有効であることを示す。
最大25000時間トレーニングデータを用いて訓練した50層自己Nmalizing Deep CNN(SNDCNN)音響モデルに対するf-SpecAugmentの評価を行った。
We observed f-SpecAugment reduces WER by 0.5-4.5% relative across different ASR task for four languages。
強化技術の利点は,データサイズが大きくなるにつれて減少する傾向にあり,f-種別の有効性を理解する上で,大規模訓練が重要である。
実験では,25kのトレーニングデータでもf-specaugmentが有効であることを実証した。
また、f-SpecAugmentは深層CNNのトレーニングデータの量が2倍になるという利点も示しています。
関連論文リスト
- Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - A Coefficient Makes SVRG Effective [55.104068027239656]
SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
分析の結果,より深いネットワークでは,SVRGの分散低減項の強度は,トレーニングが進むにつれて小さくなり,低下することが明らかとなった。
論文 参考訳(メタデータ) (2023-11-09T18:47:44Z) - Attention-free Spikformer: Mixing Spike Sequences with Simple Linear
Transforms [16.54314950692779]
SpikformerはSNNの自己注意能力と生物学的特性を統合する
Spiking Self-Attention (SSA)モジュールを導入し、スパイクフォームクエリ、キー、バリューを使ってスパースなビジュアル機能をミックスする。
我々はニューロモルフィックデータセットと静的データセットの両方を用いて画像分類に関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-02T11:41:54Z) - The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data
Regimes [3.7189423451031356]
少数のデータから一般化する枠組みを提案する。
完全に接続されたレイヤで最新のCNNを強化し、このアーキテクチャ変更が低データ体制にもたらす大きな影響を示します。
論文 参考訳(メタデータ) (2022-10-11T17:55:10Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z) - RIFLE: Backpropagation in Depth for Deep Transfer Learning through
Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。
転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。
RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文 参考訳(メタデータ) (2020-07-07T11:27:43Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。