論文の概要: Learnable MFCCs for Speaker Verification
- arxiv url: http://arxiv.org/abs/2102.10322v1
- Date: Sat, 20 Feb 2021 12:16:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 20:34:41.742364
- Title: Learnable MFCCs for Speaker Verification
- Title(参考訳): 話者検証のための学習可能なMFCC
- Authors: Xuechen Liu and Md Sahidullah and Tomi Kinnunen
- Abstract要約: 本稿ではディープニューラルネットワーク(DNN)に基づく自動話者検証のための学習可能なメル周波数ケプストラム係数(MFCC)アーキテクチャを提案する。
当社のアーキテクチャは、MFCCベースの機能のシンプルさと解釈性を保ち、モデルが柔軟にデータに適応できるようにします。
- 参考スコア(独自算出の注目度): 21.237143465298505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a learnable mel-frequency cepstral coefficient (MFCC) frontend
architecture for deep neural network (DNN) based automatic speaker
verification. Our architecture retains the simplicity and interpretability of
MFCC-based features while allowing the model to be adapted to data flexibly. In
practice, we formulate data-driven versions of the four linear transforms of a
standard MFCC extractor -- windowing, discrete Fourier transform (DFT), mel
filterbank and discrete cosine transform (DCT). Results reported reach up to
6.7\% (VoxCeleb1) and 9.7\% (SITW) relative improvement in term of equal error
rate (EER) from static MFCCs, without additional tuning effort.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)を用いた自動話者検証のための学習可能なMFCCフロントエンドアーキテクチャを提案する。
当社のアーキテクチャは、MFCCベースの機能のシンプルさと解釈性を保ち、モデルが柔軟にデータに適応できるようにします。
実際には、標準MFCC抽出器の4つの線形変換(ウィンドウリング、離散フーリエ変換(DFT)、メルフィルタバンク、離散コサイン変換(DCT))のデータ駆動バージョンを定式化する。
その結果、静的 MFCC による等誤差率 (EER) の観点で6.7\% (VoxCeleb1) と9.7\% (SITW) の相対的な改善に到達したが、追加のチューニングは行わなかった。
関連論文リスト
- Toward end-to-end interpretable convolutional neural networks for waveform signals [0.7499722271664147]
本稿では,エンドツーエンドの音声深層学習モデルに適した新しい畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
3つの標準音声感情認識データセットを5倍のクロスバリデーションでベンチマークすることで、我々のフレームワークはMelスペクトログラムの機能を最大7%向上させる。
論文 参考訳(メタデータ) (2024-05-03T02:24:27Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Precise Knowledge Transfer via Flow Matching [24.772381404849174]
我々はこのフレームワークをフローマッチングを用いた知識伝達(FM-KT)と呼ぶ。
FM-KTは任意の形態(バニラKD、DKD、PKD、DISTなど)のメートル法に基づく蒸留法と統合することができる。
提案手法のスケーラビリティと最先端性能を,関連する比較手法で実証的に検証した。
論文 参考訳(メタデータ) (2024-02-03T03:59:51Z) - Enhancing Reliability of Neural Networks at the Edge: Inverted
Normalization with Stochastic Affine Transformations [0.22499166814992438]
インメモリコンピューティングアーキテクチャに実装されたBayNNのロバスト性と推論精度を本質的に向上する手法を提案する。
実証的な結果は推論精度の優雅な低下を示し、最大で58.11%の値で改善された。
論文 参考訳(メタデータ) (2024-01-23T00:27:31Z) - Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Optimizing Multi-Taper Features for Deep Speaker Verification [21.237143465298505]
ASVタスクのために訓練されたディープニューラルネットワークと協調してマルチタスク推定器を最適化することを提案する。
SITWコーパスの最大誤差率25.8%をスタティックタッパー上での誤差率で向上させることで,本手法はリークと分散のバランスの取れたレベルを維持するのに役立てる。
論文 参考訳(メタデータ) (2021-10-21T08:56:11Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。