論文の概要: Dual-stream Time-Delay Neural Network with Dynamic Global Filter for
Speaker Verification
- arxiv url: http://arxiv.org/abs/2303.11020v2
- Date: Tue, 18 Apr 2023 04:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 17:27:35.089140
- Title: Dual-stream Time-Delay Neural Network with Dynamic Global Filter for
Speaker Verification
- Title(参考訳): 動的グローバルフィルタを用いた話者照合用デュアルストリーム時間遅延ニューラルネットワーク
- Authors: Yangfu Li, Xiaodan Lin
- Abstract要約: 時間遅延ニューラルネットワーク(TDNN)は、テキスト非依存話者検証のための最先端モデルの1つである。
本稿では、対数線形複雑性FFT/IFFTと周波数領域の異なるフィルタの集合を適用したTDNNのGlobal Filterを提案する。
我々は,複雑性低減のための基本チャネルを分割し,認識性能を向上させるためにグローバルフィルタを利用する,二重ストリームTDNN(DS-TDNN)を構築した。
- 参考スコア(独自算出の注目度): 3.6423306784901235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The time-delay neural network (TDNN) is one of the state-of-the-art models
for text-independent speaker verification. However, it is difficult for
conventional TDNN to capture global context that has been proven critical for
robust speaker representations and long-duration speaker verification in many
recent works. Besides, the common solutions, e.g., self-attention, have
quadratic complexity for input tokens, which makes them computationally
unaffordable when applied to the feature maps with large sizes in TDNN. To
address these issues, we propose the Global Filter for TDNN, which applies
log-linear complexity FFT/IFFT and a set of differentiable frequency-domain
filters to efficiently model the long-term dependencies in speech. Besides, a
dynamic filtering strategy, and a sparse regularization method are specially
designed to enhance the performance of the global filter and prevent it from
overfitting. Furthermore, we construct a dual-stream TDNN (DS-TDNN), which
splits the basic channels for complexity reduction and employs the global
filter to increase recognition performance. Experiments on Voxceleb and SITW
databases show that the DS-TDNN achieves approximate 10% improvement with a
decline over 28% and 15% in complexity and parameters compared with the
ECAPA-TDNN. Besides, it has the best trade-off between efficiency and
effectiveness compared with other popular baseline systems when facing
long-duration speech. Finally, visualizations and a detailed ablation study
further reveal the advantages of the DS-TDNN.
- Abstract(参考訳): 時間遅延ニューラルネットワーク(TDNN)は、テキスト非依存話者検証のための最先端モデルの1つである。
しかし, 従来のTDNNでは, 頑健な話者表現や長期話者検証に欠かせないグローバルな文脈を捉えることは困難である。
さらに、例えば自己注意(self-attention)のような共通解は入力トークンに対して二次的な複雑さを持ち、TDNNで大きなサイズの特徴写像に適用すると計算不能になる。
これらの問題に対処するため,TDNNのGlobal Filterを提案し,音声の長期依存性を効率的にモデル化するために,対数線形複雑性FFT/IFFTと周波数領域フィルタのセットを適用した。
さらに,グローバルフィルタの性能を高め,過度な適合を防止するために,動的フィルタリング戦略とスパース正規化手法を特別に設計する。
さらに,複雑性低減のための基本チャネルを分割し,グローバルフィルタを用いて認識性能を向上させる二重ストリームTDNN(DS-TDNN)を構築する。
Voxceleb と SITW データベースの実験では,DS-TDNN は ECAPA-TDNN と比較して28% 以上,15% 以上の複雑性とパラメータでほぼ10% の改善を実現している。
さらに、他の一般的なベースラインシステムと比較した場合、効率性と有効性のトレードオフが最良である。
最後に,ds-tdnnの利点を可視化し,詳細なアブレーション研究を行った。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers
for Streaming Speech Recognition [14.384132377946154]
ローカルおよびグローバルなコンテキストエンコーダからなる新しい畳み込みコンテキストを持つ新しいストリーミングASRモデルであるConvRNN-Tを導入する。
ConvRNN-T は RNN-T, Conformer および ContextNet の音声および室内データより優れることを示す。
ConvRNN-Tの精度とフットプリントの低さは、オンデバイスストリーミングのASR技術に有望な候補となる。
論文 参考訳(メタデータ) (2022-09-29T15:33:41Z) - MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification [5.28889161958623]
時間遅延ニューラルネットワーク(TDNN)に基づくマルチアスペクトからチャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
論文 参考訳(メタデータ) (2021-07-07T09:43:42Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - STDPG: A Spatio-Temporal Deterministic Policy Gradient Agent for Dynamic
Routing in SDN [6.27420060051673]
ソフトウェア定義ネットワーク(SDN)における動的ルーティングは、集中的な意思決定問題と見なすことができる。
本稿では,SDNにおける動的ルーティングのための新しいモデルフリーフレームワークを提案する。
STDPGは、平均的なエンドツーエンド遅延の観点から、より良いルーティングソリューションを実現する。
論文 参考訳(メタデータ) (2020-04-21T07:19:07Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。