Fugu-MT 論文翻訳(概要): Keyword spotting -- Detecting commands in speech using deep learning

論文の概要: Keyword spotting -- Detecting commands in speech using deep learning

arxiv url: http://arxiv.org/abs/2312.05640v1
Date: Sat, 9 Dec 2023 19:04:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 19:35:31.019920
Title: Keyword spotting -- Detecting commands in speech using deep learning
Title（参考訳）: キーワードスポッティング --ディープラーニングを用いた音声中のコマンド検出
Authors: Sumedha Rai, Tong Li, Bella Lyu
Abstract要約: 生波形をMel Frequency Cepstral Coefficients (MFCC)に変換することで特徴工学を実現する。実験では, BiLSTM と Attention を用いた RNN が 93.9% の精度で最高の性能を達成した。
参考スコア（独自算出の注目度）: 2.709166684084394
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speech recognition has become an important task in the development of machine learning and artificial intelligence. In this study, we explore the important task of keyword spotting using speech recognition machine learning and deep learning techniques. We implement feature engineering by converting raw waveforms to Mel Frequency Cepstral Coefficients (MFCCs), which we use as inputs to our models. We experiment with several different algorithms such as Hidden Markov Model with Gaussian Mixture, Convolutional Neural Networks and variants of Recurrent Neural Networks including Long Short-Term Memory and the Attention mechanism. In our experiments, RNN with BiLSTM and Attention achieves the best performance with an accuracy of 93.9 %
Abstract（参考訳）: 音声認識は、機械学習と人工知能の開発において重要な課題となっている。本研究では,音声認識機械学習とディープラーニング技術を用いたキーワードスポッティングの重要課題について検討する。我々は、原波形をMel Frequency Cepstral Coefficients (MFCC)に変換することで特徴工学を実装し、モデルへの入力として利用する。我々は,ガウス混合を用いた隠れマルコフモデル,畳み込みニューラルネットワーク,長期記憶や注意機構を含む反復ニューラルネットワークの変種など,いくつかの異なるアルゴリズムを実験した。実験では, BiLSTM と Attention を用いた RNN が 93.9% の精度で最高の性能を達成した。

関連論文リスト

SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文参考訳（メタデータ） (2025-02-01T04:18:06Z)
Understanding Auditory Evoked Brain Signal via Physics-informed Embedding Network with Multi-Task Transformer [3.261870217889503]
マルチタスク変換器(PEMT-Net)を用いた物理インフォームド・エンベディング・ネットワークという,革新的なマルチタスク学習モデルを提案する。 PEMT-Netは物理インフォームド埋め込みとディープラーニング技術によりデコード性能を向上させる。特定のデータセットに対する実験は、PEMT-Netがマルチタスクの聴覚信号復号における顕著な性能を示した。
論文参考訳（メタデータ） (2024-06-04T06:53:32Z)
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文参考訳（メタデータ） (2023-12-15T09:52:17Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
Surrogate Gradient Spiking Neural Networks as Encoders for Large Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。彼らは音声コマンド認識タスクについて有望な結果を示した。繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文参考訳（メタデータ） (2022-12-01T12:36:26Z)
Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文参考訳（メタデータ） (2022-11-22T02:50:12Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文参考訳（メタデータ） (2020-11-23T14:40:18Z)
Knowing What to Listen to: Early Attention for Deep Speech Representation Learning [25.71206255965502]
本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
論文参考訳（メタデータ） (2020-09-03T17:40:27Z)
TinySpeech: Attention Condensers for Deep Speech Recognition Neural Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文参考訳（メタデータ） (2020-08-10T16:34:52Z)
A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。 5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文参考訳（メタデータ） (2020-08-06T20:37:22Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。