論文の概要: Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition
- arxiv url: http://arxiv.org/abs/2108.03818v1
- Date: Mon, 9 Aug 2021 05:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 03:14:48.426834
- Title: Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition
- Title(参考訳): ペルシア語音声認識におけるDeep Convolutional Maxout Neural Networkを用いた時間周波数定位
- Authors: Arash Dehghani, Seyyed Ali Seyyedsalehi
- Abstract要約: 一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a CNN-based structure for time-frequency localization of audio
signal information in the ASR acoustic model is proposed for Persian speech
recognition. Research has shown that the receptive fields' time-frequency
flexibility in some mammals' auditory neurons system improves recognition
performance. Biosystems have inspired many artificial systems because of their
high efficiency and performance, so time-frequency localization has been used
extensively to improve system performance. In the last few years, much work has
been done to localize time-frequency information in ASR systems, which has used
the spatial immutability properties of methods such as TDNN, CNN and LSTM-RNN.
However, most of these models have large parameter volumes and are challenging
to train. In the structure we have designed, called Time-Frequency
Convolutional Maxout Neural Network (TFCMNN), two parallel blocks consisting of
1D-CMNN each have weight sharing in one dimension, are applied simultaneously
but independently to the feature vectors. Then their output is concatenated and
applied to a fully connected Maxout network for classification. To improve the
performance of this structure, we have used newly developed methods and models
such as the maxout, Dropout, and weight normalization. Two experimental sets
were designed and implemented on the Persian FARSDAT speech data set to
evaluate the performance of this model compared to conventional 1D-CMNN models.
According to the experimental results, the average recognition score of TFCMNN
models is about 1.6% higher than the average of conventional models. In
addition, the average training time of the TFCMNN models is about 17 hours
lower than the average training time of traditional models. As a result, as
mentioned in other references, time-frequency localization in ASR systems
increases system accuracy and speeds up the model training process.
- Abstract(参考訳): 本稿では,asr音響モデルにおける音声信号情報の時間周波数定位のためのcnnに基づく構造を提案する。
いくつかの哺乳類の聴覚ニューロン系における受容野の時間周波数柔軟性は認識性能を向上させることが研究で示されている。
バイオシステムは高い効率と性能のために多くの人工システムに影響を与えたため、時間周波数の局在化はシステム性能を改善するために広く用いられている。
近年,TDNN,CNN,LSTM-RNNなどの手法の空間不変性を利用したASRシステムにおける時間周波数情報のローカライズに多くの研究がなされている。
しかし、これらのモデルの多くは大きなパラメータボリュームを持ち、トレーニングが難しい。
TFCMNN (Time-Frequency Convolutional Maxout Neural Network) と呼ばれる構造では、1次元の重み共有を持つ2つの並列ブロックが同時に適用されるが、特徴ベクトルには独立して適用される。
そして、その出力を連結化し、完全に接続されたMaxoutネットワークに適用して分類する。
この構造の性能を向上させるために,新たに開発されたmaxout,dropout,weight normalizationなどの手法とモデルを用いた。
従来の1D-CMNNモデルと比較して,2つの実験セットをペルシア語FARSDAT音声データセット上に設計,実装した。
実験結果によると、TFCMNNモデルの平均認識スコアは従来のモデルの平均よりも約1.6%高い。
さらに,TFCMNNモデルの平均トレーニング時間は,従来のモデルの平均トレーニング時間よりも約17時間低い。
その結果、他の文献で述べたように、ASRシステムにおける時間周波数のローカライゼーションはシステムの精度を高め、モデルのトレーニングプロセスを高速化する。
関連論文リスト
- SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - TSEM: Temporally Weighted Spatiotemporal Explainable Neural Network for
Multivariate Time Series [0.0]
時系列深層学習におけるモデルに依存しない,モデル固有のアプローチを提案する。
TSEMは,多くの解釈可能性基準を満たすとともに,XCMよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2022-05-25T18:54:25Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Wireless Localisation in WiFi using Novel Deep Architectures [4.541069830146568]
本稿では,コモディティ・チップセットと標準チャネル・サウンドによるWiFi機器の屋内位置推定について検討する。
本稿では、異なるアンテナで受信されたWiFiサブキャリアに対応するチャネル状態情報から特徴を抽出する、新しい浅層ニューラルネットワーク(SNN)を提案する。
論文 参考訳(メタデータ) (2020-10-16T22:48:29Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。