論文の概要: Speaker Recognition using SincNet and X-Vector Fusion
- arxiv url: http://arxiv.org/abs/2004.02219v1
- Date: Sun, 5 Apr 2020 14:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:11:25.881193
- Title: Speaker Recognition using SincNet and X-Vector Fusion
- Title(参考訳): SincNetとXベクトル融合を用いた話者認識
- Authors: Mayank Tripathi, Divyanshu Singh, Seba Susan
- Abstract要約: 我々は、最近導入された2つのディープニューラルネットワーク(DNN)、すなわちSincNetとX-Celeb1を融合して話者認識を行う革新的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 8.637110868126546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an innovative approach to perform speaker
recognition by fusing two recently introduced deep neural networks (DNNs)
namely - SincNet and X-Vector. The idea behind using SincNet filters on the raw
speech waveform is to extract more distinguishing frequency-related features in
the initial convolution layers of the CNN architecture. X-Vectors are used to
take advantage of the fact that this embedding is an efficient method to churn
out fixed dimension features from variable length speech utterances, something
which is challenging in plain CNN techniques, making it efficient both in terms
of speed and accuracy. Our approach uses the best of both worlds by combining
X-vector in the later layers while using SincNet filters in the initial layers
of our deep model. This approach allows the network to learn better embedding
and converge quicker. Previous works use either X-Vector or SincNet Filters or
some modifications, however we introduce a novel fusion architecture wherein we
have combined both the techniques to gather more information about the speech
signal hence, giving us better results. Our method focuses on the VoxCeleb1
dataset for speaker recognition, and we have used it for both training and
testing purposes.
- Abstract(参考訳): 本稿では,最近導入された2つのディープニューラルネットワーク(dnn)であるsincnetとx-vectorを用いて,話者認識を行うための革新的な手法を提案する。
生音声波形上でSincNetフィルタを使用する背景にある考え方は、CNNアーキテクチャの初期畳み込み層において、より区別された周波数関連の特徴を抽出することである。
X-Vectorsは、この埋め込みが可変長音声発話から固定次元特徴を抽出する効率的な方法であるという事実を生かし、CNNの手法では困難であり、速度と精度の両面において効率的である。
我々のアプローチは、後層のXベクターを結合し、深層モデルの初期の層にSincNetフィルタを使用することによって、両方の世界の長所を利用する。
このアプローチにより、ネットワークはよりうまく埋め込み、より早く収束することができる。
これまでの研究ではx-vectorフィルタやsincnetフィルタ、あるいはいくつかの修正が用いられてきましたが、我々はこの2つの技術を組み合わせて音声信号に関するより多くの情報を集め、より良い結果を得る新しい融合アーキテクチャを導入しました。
提案手法は話者認識のためのvoxceleb1データセットに着目し,トレーニングとテストの両方に使用している。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - StereoSpike: Depth Learning with a Spiking Neural Network [0.0]
深度推定のためのエンドツーエンドのニューロモルフィック手法を提案する。
我々はSpiking Neural Network (SNN) と、StereoSpikeという名前のU-Netライクなエンコーダデコーダアーキテクチャを用いている。
このアーキテクチャは、スポーキング以外のアーキテクチャよりも、非常によく一般化されていることを実証します。
論文 参考訳(メタデータ) (2021-09-28T14:11:36Z) - Graph Neural Networks with Adaptive Frequency Response Filter [55.626174910206046]
適応周波数応答フィルタを用いたグラフニューラルネットワークフレームワークAdaGNNを開発した。
提案手法の有効性を,様々なベンチマークデータセット上で実証的に検証した。
論文 参考訳(メタデータ) (2021-04-26T19:31:21Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。
Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文 参考訳(メタデータ) (2020-08-19T05:28:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Improved RawNet with Feature Map Scaling for Text-independent Speaker
Verification using Raw Waveforms [44.192033435682944]
様々な手法を用いて特徴マップをスケーリングすることでRawNetを改善する。
最高の性能のシステムでは、元のRawNetに比べてエラー率を半分に減らす。
論文 参考訳(メタデータ) (2020-04-01T15:51:56Z) - FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA [27.50143717931293]
WaveNetは、拡張畳み込みの複数のレイヤで構成された、深く自己回帰的なCNNである。
我々は,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータtextitFastWaveを開発した。
論文 参考訳(メタデータ) (2020-02-09T06:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。