論文の概要: Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning
- arxiv url: http://arxiv.org/abs/2207.04540v1
- Date: Sun, 10 Jul 2022 21:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:22:08.341821
- Title: Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning
- Title(参考訳): 話者表現学習のためのマルチ周波数情報強化チャネルアテンションモジュール
- Authors: Mufan Sang, John H.L. Hansen
- Abstract要約: 本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
- 参考スコア(独自算出の注目度): 41.44950556040058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, attention mechanisms have been applied successfully in neural
network-based speaker verification systems. Incorporating the
Squeeze-and-Excitation block into convolutional neural networks has achieved
remarkable performance. However, it uses global average pooling (GAP) to simply
average the features along time and frequency dimensions, which is incapable of
preserving sufficient speaker information in the feature maps. In this study,
we show that GAP is a special case of a discrete cosine transform (DCT) on
time-frequency domain mathematically using only the lowest frequency component
in frequency decomposition. To strengthen the speaker information extraction
ability, we propose to utilize multi-frequency information and design two novel
and effective attention modules, called Single-Frequency Single-Channel (SFSC)
attention module and Multi-Frequency Single-Channel (MFSC) attention module.
The proposed attention modules can effectively capture more speaker information
from multiple frequency components on the basis of DCT. We conduct
comprehensive experiments on the VoxCeleb datasets and a probe evaluation on
the 1st 48-UTD forensic corpus. Experimental results demonstrate that our
proposed SFSC and MFSC attention modules can efficiently generate more
discriminative speaker representations and outperform ResNet34-SE and
ECAPA-TDNN systems with relative 20.9% and 20.2% reduction in EER, without
adding extra network parameters.
- Abstract(参考訳): 近年,ニューラルネットワークを用いた話者認証システムにおいて,注意機構が適用されている。
Squeeze-and-Excitationブロックを畳み込みニューラルネットワークに組み込むことで、優れたパフォーマンスを実現した。
しかし、グローバル平均プーリング(GAP)を使用して、時間と周波数次元に沿った特徴を単純に平均し、特徴マップに十分な話者情報を保持することができない。
本研究では,周波数分解における最小周波数成分のみを用いて,時間周波数領域における離散コサイン変換(dct)の特別な場合であることを示す。
話者情報抽出能力を高めるために,マルチ周波数情報を利用して,単一周波数単一チャネル(SFSC)アテンションモジュールとマルチ周波数単一チャネル(MFSC)アテンションモジュールと呼ばれる,新しい2つのアテンションモジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて複数の周波数成分からより多くの話者情報を効果的に取得することができる。
我々は,VoxCelebデータセットの総合的な実験を行い,第1報48-UTD法定コーパスのプローブ評価を行った。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,ネットワークパラメータを追加せずに,相対20.9%,20.2%削減したResNet34-SEおよびECAPA-TDNNシステムより効率よく識別可能な話者表現を生成することができた。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Exploring Cross-Domain Few-Shot Classification via Frequency-Aware Prompting [37.721042095518044]
クロスドメインなFew-Shot Learningはメタラーニングの発展に大きく貢献している。
本稿では,相互に注意を向けた周波数対応プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:14:09Z) - Complementary Frequency-Varying Awareness Network for Open-Set
Fine-Grained Image Recognition [14.450381668547259]
オープンセット画像認識はコンピュータビジョンにおける課題である。
本稿では,高周波情報と低周波情報の両方をよりよく把握できる補完周波数変化認識ネットワークを提案する。
CFANに基づいて,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T08:15:36Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。