論文の概要: DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification
- arxiv url: http://arxiv.org/abs/2303.11020v3
- Date: Tue, 1 Aug 2023 07:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:48:59.699420
- Title: DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification
- Title(参考訳): ds-tdnn:グローバルアウェアフィルタを用いた話者照合用デュアルストリームタイムデレイニューラルネットワーク
- Authors: Yangfu Li, Jiapan Gan, Xiaodan Lin
- Abstract要約: 本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
- 参考スコア(独自算出の注目度): 3.0831477850153224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional time-delay neural networks (TDNNs) struggle to handle long-range
context, their ability to represent speaker information is therefore limited in
long utterances. Existing solutions either depend on increasing model
complexity or try to balance between local features and global context to
address this issue. To effectively leverage the long-term dependencies of audio
signals and constrain model complexity, we introduce a novel module called
Global-aware Filter layer (GF layer) in this work, which employs a set of
learnable transform-domain filters between a 1D discrete Fourier transform and
its inverse transform to capture global context. Additionally, we develop a
dynamic filtering strategy and a sparse regularization method to enhance the
performance of the GF layer and prevent overfitting. Based on the GF layer, we
present a dual-stream TDNN architecture called DS-TDNN for automatic speaker
verification (ASV), which utilizes two unique branches to extract both local
and global features in parallel and employs an efficient strategy to fuse
different-scale information. Experiments on the Voxceleb and SITW databases
demonstrate that the DS-TDNN achieves a relative improvement of 10\% together
with a relative decline of 20\% in computational cost over the ECAPA-TDNN in
speaker verification task. This improvement will become more evident as the
utterance's duration grows. Furthermore, the DS-TDNN also beats popular deep
residual models and attention-based systems on utterances of arbitrary length.
- Abstract(参考訳): 従来の時間遅延ニューラルネットワーク(tdnn)は、長距離のコンテキストを扱うのに苦労しており、話者情報を表現する能力は、長い発話で制限される。
既存のソリューションは、モデルの複雑さの増加に依存するか、この問題に対処するために、ローカル機能とグローバルコンテキストのバランスをとろうとする。
本研究では,1次元離散フーリエ変換と逆変換の間で学習可能な変換領域フィルタのセットを用いて,グローバルコンテキストをキャプチャする,Global-Aware Filter Layer (GF layer) と呼ばれる新しいモジュールを導入する。
さらに,gf層の性能を向上させるために動的フィルタリング戦略とスパース正規化手法を開発し,過剰充填を防止する。
GF層をベースとした自動話者検証(ASV)のためのDS-TDNNアーキテクチャを提案する。このアーキテクチャは2つのユニークな分岐を用いて局所的特徴とグローバルな特徴を並列に抽出し,異なるスケールの情報を融合するための効率的な戦略を用いる。
Voxceleb および SITW データベースにおける実験により,DS-TDNN は話者検証タスクにおいて ECAPA-TDNN に比べて相対的に 20 % の計算コスト低下と 10 % の相対的な改善を達成することが示された。
この改善は発話の持続時間が増えるにつれてより顕著になる。
さらにDS-TDNNは、任意の長さの発話に対して、一般的なディープ残差モデルやアテンションベースシステムを上回る。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition [14.384132377946154]
ローカルおよびグローバルなコンテキストエンコーダからなる新しい畳み込みコンテキストを持つ新しいストリーミングASRモデルであるConvRNN-Tを導入する。
ConvRNN-T は RNN-T, Conformer および ContextNet の音声および室内データより優れることを示す。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
論文 参考訳(メタデータ) (2022-09-29T15:33:41Z) - MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification [5.28889161958623]
時間遅延ニューラルネットワーク(TDNN)に基づくマルチアスペクトからチャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2021-07-07T09:43:42Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - STDPG: A Spatio-Temporal Deterministic Policy Gradient Agent for Dynamic
Routing in SDN [6.27420060051673]
ソフトウェア定義ネットワーク(SDN)における動的ルーティングは、集中的な意思決定問題と見なすことができる。
本稿では,SDNにおける動的ルーティングのための新しいモデルフリーフレームワークを提案する。
STDPGは、平均的なエンドツーエンド遅延の観点から、より良いルーティングソリューションを実現する。
論文 参考訳(メタデータ) (2020-04-21T07:19:07Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。