論文の概要: Optimization of data-driven filterbank for automatic speaker
verification
- arxiv url: http://arxiv.org/abs/2007.10729v1
- Date: Tue, 21 Jul 2020 11:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:51:08.773211
- Title: Optimization of data-driven filterbank for automatic speaker
verification
- Title(参考訳): 話者自動検証のためのデータ駆動フィルタバンクの最適化
- Authors: Susanta Sarangi, Md Sahidullah, Goutam Saha
- Abstract要約: 与えられた音声データからフィルタパラメータを最適化する新しいデータ駆動型フィルタ設計法を提案する。
提案手法の主な利点は、ラベルなし音声データの量が非常に少ないことである。
提案するフィルタバンクを用いた音響特性は,既存のメル周波数ケプストラム係数 (MFCC) や音声信号に基づく周波数ケプストラム係数 (SFCC) よりも優れていた。
- 参考スコア(独自算出の注目度): 8.175789701289512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most of the speech processing applications use triangular filters spaced in
mel-scale for feature extraction. In this paper, we propose a new data-driven
filter design method which optimizes filter parameters from a given speech
data. First, we introduce a frame-selection based approach for developing
speech-signal-based frequency warping scale. Then, we propose a new method for
computing the filter frequency responses by using principal component analysis
(PCA). The main advantage of the proposed method over the recently introduced
deep learning based methods is that it requires very limited amount of
unlabeled speech-data. We demonstrate that the proposed filterbank has more
speaker discriminative power than commonly used mel filterbank as well as
existing data-driven filterbank. We conduct automatic speaker verification
(ASV) experiments with different corpora using various classifier back-ends. We
show that the acoustic features created with proposed filterbank are better
than existing mel-frequency cepstral coefficients (MFCCs) and
speech-signal-based frequency cepstral coefficients (SFCCs) in most cases. In
the experiments with VoxCeleb1 and popular i-vector back-end, we observe 9.75%
relative improvement in equal error rate (EER) over MFCCs. Similarly, the
relative improvement is 4.43% with recently introduced x-vector system. We
obtain further improvement using fusion of the proposed method with standard
MFCC-based approach.
- Abstract(参考訳): ほとんどの音声処理アプリケーションは、特徴抽出のためにメルスケールの三角形フィルタを使用する。
本稿では,与えられた音声データからフィルタパラメータを最適化する新しいデータ駆動フィルタ設計法を提案する。
まず,フレーム選択に基づく音声信号に基づく周波数ワープ尺度を提案する。
そこで本研究では,主成分分析(PCA)を用いたフィルタ周波数応答の計算手法を提案する。
最近導入されたディープラーニングベースの手法よりも,提案手法の主な利点は,ラベルなしの音声データが非常に少ないことだ。
提案するフィルタバンクは,一般的なメルフィルタバンクや既存のデータ駆動フィルタバンクよりも話者識別能力が高いことを示す。
様々な分類器のバックエンドを用いて、異なるコーパスを用いて自動話者検証(ASV)実験を行う。
提案するフィルタバンクを用いた音響特性は,既存のメル周波数ケプストラム係数 (MFCC) や音声信号に基づく周波数ケプストラム係数 (SFCC) よりも優れていた。
VoxCeleb1とi-vectorバックエンドを用いた実験では、MFCCに対するEERの相対的な改善が9.75%である。
同様に、最近導入されたxベクターシステムによる相対的な改善は4.43%である。
提案手法と標準MFCCアプローチとの融合により,さらなる改良が得られた。
関連論文リスト
- Frequency-aware Graph Signal Processing for Collaborative Filtering [26.317108637430664]
協調フィルタリングのための周波数対応グラフ信号処理法(FaGSP)を提案する。
まず,理想的な高域通過フィルタと理想的な低域通過フィルタからなるカスケードフィルタモジュールを設計する。
そこで,2つの低域通過フィルタからなる並列フィルタモジュールを考案した。
論文 参考訳(メタデータ) (2024-02-13T12:53:18Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Multiplierless In-filter Computing for tinyML Platforms [6.878219199575747]
In-filter音響分類のための新しいマルチプライヤレスフレームワークを提案する。
我々は、近似誤差を緩和するバックプロパゲーションを含む、MPベースの近似をトレーニングに用いている。
このフレームワークは、1Kスライス未満の従来の分類フレームワークよりも効率的である。
論文 参考訳(メタデータ) (2023-04-24T04:33:44Z) - Filter Pruning based on Information Capacity and Independence [11.411996979581295]
本稿では,フィルタを解釈可能,マルチパースペクティブ,軽量な方法で選択する新しいフィルタプルーニング手法を提案する。
各フィルタに含まれる情報量について,情報容量と呼ばれる新しい指標を提案する。
フィルタ間の相関について、情報独立と呼ばれる別の指標が設計されている。
論文 参考訳(メタデータ) (2023-03-07T04:26:44Z) - Sparse Regularized Correlation Filter for UAV Object Tracking with
adaptive Contextual Learning and Keyfilter Selection [20.786475337107472]
相関フィルタは無人航空機(UAV)の追跡に広く応用されている。
2つの固有の欠陥、すなわち境界効果とフィルタの破損のために脆弱である。
本稿では,適応型文脈学習とキーフィルタ選択を用いた新しい$ell_1$正規化相関フィルタを提案する。
論文 参考訳(メタデータ) (2022-05-07T10:25:56Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。
周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。
逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文 参考訳(メタデータ) (2022-02-28T05:49:35Z) - Direct design of biquad filter cascades with deep learning by sampling
random polynomials [5.1118282767275005]
本研究では, 何百万ものランダムフィルタで学習したニューラルネットワークを用いて, フィルタ係数空間に対する目標規模の応答から直接写像を学習する。
提案手法は,所望の応答に対するフィルタ係数の高速かつ高精度な推定を可能にする。
修正Yule-Walkerや勾配降下などの既存手法と比較し,IIRNetが平均的に高速かつ高精度であることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:58:08Z) - Fast Variational AutoEncoder with Inverted Multi-Index for Collaborative
Filtering [59.349057602266]
変分オートエンコーダ (VAE) は, 協調フィルタリングの非線形手法として拡張されている。
内積に基づくソフトマックス確率を逆多重インデックスに基づいて分解する。
FastVAEはサンプリング品質と効率の両面で最先端のベースラインを上回っます。
論文 参考訳(メタデータ) (2021-09-13T08:31:59Z) - Innovative And Additive Outlier Robust Kalman Filtering With A Robust
Particle Filter [68.8204255655161]
提案するCE-BASSは, 粒子混合カルマンフィルタであり, 革新的および付加的両方の外れ値に対して堅牢であり, 隠蔽状態の分布における多モード性を完全に捉えることができる。
さらに、CE-BASSは過去の状態を再サンプリングすることで、トレンドの変化のような観測ですぐには見えない革新的な外れ値を扱うことができる。
論文 参考訳(メタデータ) (2020-07-07T07:11:09Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。