論文の概要: Minimal Feature Analysis for Isolated Digit Recognition for varying
encoding rates in noisy environments
- arxiv url: http://arxiv.org/abs/2208.13100v1
- Date: Sat, 27 Aug 2022 23:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:14:42.266120
- Title: Minimal Feature Analysis for Isolated Digit Recognition for varying
encoding rates in noisy environments
- Title(参考訳): 雑音環境下での符号化レート変化に対する分離Digit認識のための最小特性解析
- Authors: Muskan Garg and Naveen Aggarwal
- Abstract要約: 異なるビットレートと異なるノイズレベルの存在下での孤立した桁認識の分析が実施されている。
隠れマルコフモデル(HMM)は、この実験に使われた認識モデルである。
サンプリングレートの異なる5種類の一般的なビットレートは、最も最適なビットレートを見つけるために考慮された。
- 参考スコア(独自算出の注目度): 2.3859169601259342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research work is about recent development made in speech recognition. In
this research work, analysis of isolated digit recognition in the presence of
different bit rates and at different noise levels has been performed. This
research work has been carried using audacity and HTK toolkit. Hidden Markov
Model (HMM) is the recognition model which was used to perform this experiment.
The feature extraction techniques used are Mel Frequency Cepstrum coefficient
(MFCC), Linear Predictive Coding (LPC), perceptual linear predictive (PLP), mel
spectrum (MELSPEC), filter bank (FBANK). There were three types of different
noise levels which have been considered for testing of data. These include
random noise, fan noise and random noise in real time environment. This was
done to analyse the best environment which can used for real time applications.
Further, five different types of commonly used bit rates at different sampling
rates were considered to find out the most optimum bit rate.
- Abstract(参考訳): 本研究は,音声認識における最近の発展について述べる。
本研究では,異なるビットレートと異なるノイズレベルの存在下での孤立した桁認識の分析を行った。
この研究は、audacityとhtk toolkitを使って進められている。
隠れマルコフモデル(hidden markov model, hmm)は、この実験に用いられた認識モデルである。
特徴抽出技術として、メル周波数ケプストラム係数(MFCC)、線形予測符号化(LPC)、知覚線形予測(PLP)、メルスペクトル(MELSPEC)、フィルタバンク(FBANK)がある。
データテストのために検討されてきた3種類の異なるノイズレベルがあった。
これには、リアルタイム環境におけるランダムノイズ、ファンノイズ、ランダムノイズが含まれる。
これは、リアルタイムアプリケーションで使用できる最良の環境を分析するために行われた。
さらに、サンプリングレートの異なる5種類の一般的なビットレートが最適なビットレートを求めるために検討された。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - MultiWave: Multiresolution Deep Architectures through Wavelet
Decomposition for Multivariate Time Series Prediction [6.980076213134384]
MultiWaveは、信号の固有周波数で動作するコンポーネントを組み込むことで、ディープラーニング時系列モデルを強化する新しいフレームワークである。
我々は、MultiWaveが重要な特徴とその周波数成分を一貫して識別し、研究対象のアプリケーションに対する貴重な洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-06-16T20:07:15Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Gradient-based Bit Encoding Optimization for Noise-Robust Binary
Memristive Crossbar [7.144750011626086]
エネルギー効率のよいディープラーニングハードウェアアクセラレーターとして、バイナリ・メムリシブ・クロスバーが注目されている。
以前の作業では、クロスバーから取得したノイズデータで重みパラメータを訓練していた。
本稿では,入力バイナリビット符号化の操作によるクロスバーノイズ低減の新しい視点について検討する。
論文 参考訳(メタデータ) (2022-01-05T06:49:34Z) - On the Frequency Bias of Generative Models [61.60834513380388]
我々は、最先端のGANトレーニングにおいて、高周波アーティファクトに対する提案手法を解析した。
既存のアプローチでは、スペクトルアーティファクトを完全に解決できないことが分かっています。
以上の結果から,識別能力の向上に大きな可能性があることが示唆された。
論文 参考訳(メタデータ) (2021-11-03T18:12:11Z) - Learning based signal detection for MIMO systems with unknown noise
statistics [84.02122699723536]
本論文では,未知のノイズ統計による信号を堅牢に検出する一般化最大確率(ML)推定器を考案する。
実際には、システムノイズに関する統計的な知識はほとんどなく、場合によっては非ガウス的であり、衝動的であり、分析不可能である。
我々のフレームワークは、ノイズサンプルのみを必要とする教師なしの学習アプローチによって駆動される。
論文 参考訳(メタデータ) (2021-01-21T04:48:15Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z) - A Fourier Domain Feature Approach for Human Activity Recognition & Fall
Detection [0.0]
本研究は、周波数領域フーリエ係数を用いて日常生活の人間の活動を識別する。
メソッドの評価には、2つの異なる教師付き分類器kNNとSVMが使用される。
標準精度(SA)、マクロ平均精度(MAA)、感度(SE)、特異性(SP)など、さまざまな標準指標が考慮されている。
論文 参考訳(メタデータ) (2020-03-11T10:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。