論文の概要: Frequency-centroid features for word recognition of non-native English
speakers
- arxiv url: http://arxiv.org/abs/2206.07176v1
- Date: Tue, 14 Jun 2022 21:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 15:22:42.278542
- Title: Frequency-centroid features for word recognition of non-native English
speakers
- Title(参考訳): 英語母語話者の単語認識における周波数中心特徴
- Authors: Pierre Berjon, Rajib Sharma, Avishek Nag, and Soumyabrata Dev
- Abstract要約: 本研究の目的は,Mel周波数ケプストラム係数(MFCC)の相補的特徴について検討することである。
FCは音声スペクトルの異なる帯域のスペクトル中心をカプセル化し、Melフィルタバンクによって定義されている。
2段階の畳み込みニューラルネットワーク(CNN)は、アラビア語、フランス語、スペイン語のアクセントで発する英語の単語の特徴をモデル化するために用いられる。
- 参考スコア(独自算出の注目度): 1.9249287163937974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is to investigate complementary features which can
aid the quintessential Mel frequency cepstral coefficients (MFCCs) in the task
of closed, limited set word recognition for non-native English speakers of
different mother-tongues. Unlike the MFCCs, which are derived from the spectral
energy of the speech signal, the proposed frequency-centroids (FCs) encapsulate
the spectral centres of the different bands of the speech spectrum, with the
bands defined by the Mel filterbank. These features, in combination with the
MFCCs, are observed to provide relative performance improvement in English word
recognition, particularly under varied noisy conditions. A two-stage
Convolution Neural Network (CNN) is used to model the features of the English
words uttered with Arabic, French and Spanish accents.
- Abstract(参考訳): 本研究の目的は,母語話者の非母語話者に対する閉鎖的限定セット単語認識課題において,メル頻度ケプストラム係数(mfccs)を補助する補完的特徴を検討することである。
音声信号のスペクトルエネルギーから導出されるMFCCとは異なり、提案された周波数セントロイド(FC)は、Melフィルタバンクによって定義された帯域とともに、音声スペクトルの異なる帯域のスペクトル中心をカプセル化する。
これらの特徴は、MFCCと組み合わせて、英語の単語認識における相対的な性能向上、特に雑音条件下では観察される。
2段階の畳み込みニューラルネットワーク(CNN)は、アラビア語、フランス語、スペイン語のアクセントで発する英語の単語の特徴をモデル化するために用いられる。
関連論文リスト
- Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods [0.6530047924748276]
音声信号処理は、ノイズの多い環境での音声データの明瞭さと理解性を改善する。
音声認識の質は、テクノロジー駆動通信におけるユーザ体験とアクセシビリティに直接影響を及ぼす。
本稿では,高度なクラスタリング手法,特にKFCM(Kernel Fuzzy C-Means)法について検討する。
論文 参考訳(メタデータ) (2024-09-28T20:21:05Z) - Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - End-to-End User-Defined Keyword Spotting using Shifted Delta Coefficients [6.626696929949397]
そこで本研究では,発音の変動を捉えるのに役立つシフトデルタ係数(SDC)を提案する。
提案手法は最先端のUDKWS技術と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-23T12:24:01Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer [50.572974726351504]
クラスベースのLMをFNTに組み込んだ新しいE2EモデルであるC-FNTを提案する。
C-FNTでは、名前付きエンティティのLMスコアは、その表面形式の代わりに名前クラスに関連付けることができる。
実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-09-14T12:14:49Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Vowel-based Meeteilon dialect identification using a Random Forest
classifier [0.0]
母音データセットは、Linguistic Data Consortium for Indian Languages (LDC-IL)で利用可能なMeeteilon Speech Corporaを用いて作成される
単声母音音からフォルマント周波数(F1,F1,F3)やピッチ(F0)、エネルギー、強度、セグメント長値などの韻律特徴を抽出する。
決定木に基づくアンサンブルアルゴリズムであるランダム・フォレスト (Random forest) は、メテヨンの3つの主要方言、即ちImphal、Kakching、Sekmaiの分類に用いられている。
論文 参考訳(メタデータ) (2021-07-26T04:09:00Z) - On the Use of Audio Fingerprinting Features for Speech Enhancement with
Generative Adversarial Network [24.287237963000745]
短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。
MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。
本研究では、GAN(Generative Adversarial Network)に基づく音声強調システムを構築し、AFPと正規化スペクトルサブバンドセントロイド(NSSC)を組み合わせた実験を行った。
論文 参考訳(メタデータ) (2020-07-27T00:44:16Z) - The Secret is in the Spectra: Predicting Cross-lingual Task Performance
with Spectral Similarity Measures [83.53361353172261]
本稿では,モノリンガル埋め込み空間の類似性とタスク性能の相関性に着目した大規模研究を行う。
2つの埋め込み空間間のいくつかの同型測度を導入し、それぞれのスペクトルの関連統計に基づく。
このようなスペクトル同型尺度から得られた言語類似度スコアは、異なる言語間タスクで観測された性能と強く関連していることを実証的に示す。
論文 参考訳(メタデータ) (2020-01-30T00:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。