論文の概要: Enhancement of a Text-Independent Speaker Verification System by using
Feature Combination and Parallel-Structure Classifiers
- arxiv url: http://arxiv.org/abs/2401.15018v1
- Date: Fri, 26 Jan 2024 17:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:28:19.780856
- Title: Enhancement of a Text-Independent Speaker Verification System by using
Feature Combination and Parallel-Structure Classifiers
- Title(参考訳): 特徴組合せと並列構造分類器を用いたテキスト独立話者検証システムの強化
- Authors: Kerlos Atia Abdalmalak and Ascensi\'on Gallardo-Antol'in
- Abstract要約: 本稿では,特徴抽出と分類という2つのモジュールについて検討する。
最も適切な音響特徴の選択は、頑健な話者検証を行う上で重要な要素である。
ノイズの多い環境でシステムを強化するために,前処理段階としてのマルチバンドノイズ除去手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker Verification (SV) systems involve mainly two individual stages:
feature extraction and classification. In this paper, we explore these two
modules with the aim of improving the performance of a speaker verification
system under noisy conditions. On the one hand, the choice of the most
appropriate acoustic features is a crucial factor for performing robust speaker
verification. The acoustic parameters used in the proposed system are: Mel
Frequency Cepstral Coefficients (MFCC), their first and second derivatives
(Deltas and Delta- Deltas), Bark Frequency Cepstral Coefficients (BFCC),
Perceptual Linear Predictive (PLP), and Relative Spectral Transform -
Perceptual Linear Predictive (RASTA-PLP). In this paper, a complete comparison
of different combinations of the previous features is discussed. On the other
hand, the major weakness of a conventional Support Vector Machine (SVM)
classifier is the use of generic traditional kernel functions to compute the
distances among data points. However, the kernel function of an SVM has great
influence on its performance. In this work, we propose the combination of two
SVM-based classifiers with different kernel functions: Linear kernel and
Gaussian Radial Basis Function (RBF) kernel with a Logistic Regression (LR)
classifier. The combination is carried out by means of a parallel structure
approach, in which different voting rules to take the final decision are
considered. Results show that significant improvement in the performance of the
SV system is achieved by using the combined features with the combined
classifiers either with clean speech or in the presence of noise. Finally, to
enhance the system more in noisy environments, the inclusion of the multiband
noise removal technique as a preprocessing stage is proposed.
- Abstract(参考訳): 話者検証(SV)システムは主に特徴抽出と分類の2つの段階を含む。
本稿では,これらの2つのモジュールについて,雑音条件下での話者検証システムの性能向上を目的として検討する。
一方、最も適切な音響特徴の選択は、頑健な話者検証を行う上で重要な要素である。
提案システムで用いられる音響パラメータは,Mel Frequency Cepstral Coefficients (MFCC), その第1および第2誘導体 (Deltas and Delta-Deltas), Bark Frequency Cepstral Coefficients (BFCC), Perceptual Linear Predictive (PLP), Relative Spectral Transform Perceptual Linear Predictive (RASTA-PLP) である。
本稿では,先行する特徴の異なる組み合わせの完全な比較について述べる。
一方、従来のサポートベクトルマシン(SVM)分類器の大きな弱点は、データポイント間の距離を計算するために、一般的なカーネル関数を使用することである。
しかし、SVMのカーネル機能は、その性能に大きな影響を与えている。
本研究では,異なるカーネル関数を持つ2つのsvmベースの分類器(線形カーネルとガウス半径基底関数(rbf)カーネルとロジスティック回帰(lr)分類器の組み合わせを提案する。
この組み合わせは、最終的な決定を下すための異なる投票ルールを考慮に入れた並列構造アプローチによって実行される。
その結果,svシステムの性能は,クリーンな音声またはノイズの存在下で,組み合わせた分類器と組み合わせた機能を用いることで著しく向上することがわかった。
最後に,雑音環境下でのシステム強化のために,前処理段階としてマルチバンドノイズ除去技術を導入することを提案する。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - In-filter Computing For Designing Ultra-light Acoustic Pattern
Recognizers [6.335302509003343]
超軽量音響分類器の設計に使用できる新しいインフィルタ・コンピューティング・フレームワークを提案する。
提案したアーキテクチャは、コンボリューションと非線形フィルタリングの操作を直接サポートベクトルマシンのカーネルに統合する。
本研究では,1.5k Look-Up Tables (LUT) と2.8k Flip-Flops (FF) のみを用いて,ベンチマーク音声認識タスクにおいてロバストな分類性能が得られることを示す。
論文 参考訳(メタデータ) (2021-09-11T08:16:53Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Radial basis function kernel optimization for Support Vector Machine
classifiers [4.888981184420116]
OKSVMはRBFカーネルハイパーパラメータを自動的に学習し、SVM重みを同時に調整するアルゴリズムである。
合成データおよび実データに基づく分類において,従来のSVMに対するアプローチの性能を解析する。
論文 参考訳(メタデータ) (2020-07-16T10:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。