論文の概要: Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning
- arxiv url: http://arxiv.org/abs/2207.04540v1
- Date: Sun, 10 Jul 2022 21:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:22:08.341821
- Title: Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning
- Title(参考訳): 話者表現学習のためのマルチ周波数情報強化チャネルアテンションモジュール
- Authors: Mufan Sang, John H.L. Hansen
- Abstract要約: 本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
- 参考スコア(独自算出の注目度): 41.44950556040058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, attention mechanisms have been applied successfully in neural
network-based speaker verification systems. Incorporating the
Squeeze-and-Excitation block into convolutional neural networks has achieved
remarkable performance. However, it uses global average pooling (GAP) to simply
average the features along time and frequency dimensions, which is incapable of
preserving sufficient speaker information in the feature maps. In this study,
we show that GAP is a special case of a discrete cosine transform (DCT) on
time-frequency domain mathematically using only the lowest frequency component
in frequency decomposition. To strengthen the speaker information extraction
ability, we propose to utilize multi-frequency information and design two novel
and effective attention modules, called Single-Frequency Single-Channel (SFSC)
attention module and Multi-Frequency Single-Channel (MFSC) attention module.
The proposed attention modules can effectively capture more speaker information
from multiple frequency components on the basis of DCT. We conduct
comprehensive experiments on the VoxCeleb datasets and a probe evaluation on
the 1st 48-UTD forensic corpus. Experimental results demonstrate that our
proposed SFSC and MFSC attention modules can efficiently generate more
discriminative speaker representations and outperform ResNet34-SE and
ECAPA-TDNN systems with relative 20.9% and 20.2% reduction in EER, without
adding extra network parameters.
- Abstract(参考訳): 近年,ニューラルネットワークを用いた話者認証システムにおいて,注意機構が適用されている。
Squeeze-and-Excitationブロックを畳み込みニューラルネットワークに組み込むことで、優れたパフォーマンスを実現した。
しかし、グローバル平均プーリング(GAP)を使用して、時間と周波数次元に沿った特徴を単純に平均し、特徴マップに十分な話者情報を保持することができない。
本研究では,周波数分解における最小周波数成分のみを用いて,時間周波数領域における離散コサイン変換(dct)の特別な場合であることを示す。
話者情報抽出能力を高めるために,マルチ周波数情報を利用して,単一周波数単一チャネル(SFSC)アテンションモジュールとマルチ周波数単一チャネル(MFSC)アテンションモジュールと呼ばれる,新しい2つのアテンションモジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて複数の周波数成分からより多くの話者情報を効果的に取得することができる。
我々は,VoxCelebデータセットの総合的な実験を行い,第1報48-UTD法定コーパスのプローブ評価を行った。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,ネットワークパラメータを追加せずに,相対20.9%,20.2%削減したResNet34-SEおよびECAPA-TDNNシステムより効率よく識別可能な話者表現を生成することができた。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。
ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。
本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Exploring Cross-Domain Few-Shot Classification via Frequency-Aware Prompting [37.721042095518044]
クロスドメインなFew-Shot Learningはメタラーニングの発展に大きく貢献している。
本稿では,相互に注意を向けた周波数対応プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:14:09Z) - Complementary Frequency-Varying Awareness Network for Open-Set
Fine-Grained Image Recognition [14.450381668547259]
オープンセット画像認識はコンピュータビジョンにおける課題である。
本稿では,高周波情報と低周波情報の両方をよりよく把握できる補完周波数変化認識ネットワークを提案する。
CFANに基づいて,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T08:15:36Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。