論文の概要: MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification
- arxiv url: http://arxiv.org/abs/2107.03104v1
- Date: Wed, 7 Jul 2021 09:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 21:08:26.606786
- Title: MACCIF-TDNN: Multi aspect aggregation of channel and context
interdependence features in TDNN-based speaker verification
- Title(参考訳): MACCIF-TDNN:TDNN話者検証におけるチャンネルとコンテキスト相互依存性の特徴の多面的集約
- Authors: Fangyuan Wang, Zhigang Song, Hongchen Jiang, Bo Xu
- Abstract要約: 時間遅延ニューラルネットワーク(TDNN)に基づくマルチアスペクトからチャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
- 参考スコア(独自算出の注目度): 5.28889161958623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the recent state-of-the-art results for speaker verification are
achieved by X-vector and its subsequent variants. In this paper, we propose a
new network architecture which aggregates the channel and context
interdependence features from multi aspect based on Time Delay Neural Network
(TDNN). Firstly, we use the SE-Res2Blocks as in ECAPA-TDNN to explicitly model
the channel interdependence to realize adaptive calibration of channel
features, and process local context features in a multi-scale way at a more
granular level compared with conventional TDNN-based methods. Secondly, we
explore to use the encoder structure of Transformer to model the global context
interdependence features at an utterance level which can capture better long
term temporal characteristics. Before the pooling layer, we aggregate the
outputs of SE-Res2Blocks and Transformer encoder to leverage the complementary
channel and context interdependence features learned by themself respectively.
Finally, instead of performing a single attentive statistics pooling, we also
find it beneficial to extend the pooling method in a multi-head way which can
discriminate features from multiple aspect. The proposed MACCIF-TDNN
architecture can outperform most of the state-of-the-art TDNN-based systems on
VoxCeleb1 test sets.
- Abstract(参考訳): 最近の話者検証の最先端結果のほとんどは、Xベクターとその後続の変種によって達成されている。
本稿では,TDNN(Time Delay Neural Network)に基づくマルチアスペクトから,チャネルとコンテキストの相互依存性を集約する新しいネットワークアーキテクチャを提案する。
まず、SE-Res2BlocksをECAPA-TDNNのように使用し、チャネル間依存性を明示的にモデル化し、チャネル特徴の適応的なキャリブレーションを実現し、従来のTDNN法と比較してより粒度の細かいマルチスケールでローカルコンテキスト特徴を処理する。
次に,Transformerのエンコーダ構造を用いて,発話レベルにおけるグローバルコンテキスト相互依存性の特徴をモデル化し,時間的特性の長期化を図る。
プール層の前に、SE-Res2BlocksとTransformerエンコーダの出力を集約し、それぞれが学習した補完チャネルとコンテキスト相互依存機能を活用する。
最後に、単一の注意統計プーリングを実行する代わりに、複数の側面から特徴を区別できるマルチヘッド方式でプーリングメソッドを拡張することにも有益である。
提案したMACCIF-TDNNアーキテクチャは、VoxCeleb1テストセット上で最先端のTDNNベースのシステムよりも優れている。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - End-to-End Learning for Uplink MU-SIMO Joint Transmitter and
Non-Coherent Receiver Design in Fading Channels [11.182920270301304]
JTRD-Netと呼ばれる新しいエンドツーエンド学習手法が提案され、マルチユーザシングルインプットマルチ出力(MU-SIMO)ジョイントトランスミッタとフェーディングチャネルにおける非コヒーレントレシーバー設計(JTRD)をアップリンクする。
送信側は、マルチユーザー波形設計を担当する並列線形層のグループとしてモデル化されています。
非コヒーレント受信機は、マルチユーザ検出(MUD)機能を提供するために、ディープフィードフォワードニューラルネットワーク(DFNN)によって形成される。
論文 参考訳(メタデータ) (2021-05-04T02:47:59Z) - Evolving Multi-Resolution Pooling CNN for Monaural Singing Voice
Separation [40.170868770930774]
モナウラル歌声分離(MSVS)は難しい課題であり、何十年も研究されてきた。
ディープニューラルネットワーク(Deep Neural Network, DNN)は、MSVSの最先端の手法である。
ニューラルアーキテクチャサーチ(NAS)手法をMSVS用DNNの構造設計に適用する。
論文 参考訳(メタデータ) (2020-08-03T12:09:42Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。