Fugu-MT 論文翻訳(概要): Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning

論文の概要: Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning

arxiv url: http://arxiv.org/abs/2207.04540v1
Date: Sun, 10 Jul 2022 21:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 16:22:08.341821
Title: Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning
Title（参考訳）: 話者表現学習のためのマルチ周波数情報強化チャネルアテンションモジュール
Authors: Mufan Sang, John H.L. Hansen
Abstract要約: 本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
参考スコア（独自算出の注目度）: 41.44950556040058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, attention mechanisms have been applied successfully in neural network-based speaker verification systems. Incorporating the Squeeze-and-Excitation block into convolutional neural networks has achieved remarkable performance. However, it uses global average pooling (GAP) to simply average the features along time and frequency dimensions, which is incapable of preserving sufficient speaker information in the feature maps. In this study, we show that GAP is a special case of a discrete cosine transform (DCT) on time-frequency domain mathematically using only the lowest frequency component in frequency decomposition. To strengthen the speaker information extraction ability, we propose to utilize multi-frequency information and design two novel and effective attention modules, called Single-Frequency Single-Channel (SFSC) attention module and Multi-Frequency Single-Channel (MFSC) attention module. The proposed attention modules can effectively capture more speaker information from multiple frequency components on the basis of DCT. We conduct comprehensive experiments on the VoxCeleb datasets and a probe evaluation on the 1st 48-UTD forensic corpus. Experimental results demonstrate that our proposed SFSC and MFSC attention modules can efficiently generate more discriminative speaker representations and outperform ResNet34-SE and ECAPA-TDNN systems with relative 20.9% and 20.2% reduction in EER, without adding extra network parameters.
Abstract（参考訳）: 近年,ニューラルネットワークを用いた話者認証システムにおいて,注意機構が適用されている。 Squeeze-and-Excitationブロックを畳み込みニューラルネットワークに組み込むことで、優れたパフォーマンスを実現した。しかし、グローバル平均プーリング(GAP)を使用して、時間と周波数次元に沿った特徴を単純に平均し、特徴マップに十分な話者情報を保持することができない。本研究では,周波数分解における最小周波数成分のみを用いて,時間周波数領域における離散コサイン変換(dct)の特別な場合であることを示す。話者情報抽出能力を高めるために,マルチ周波数情報を利用して,単一周波数単一チャネル(SFSC)アテンションモジュールとマルチ周波数単一チャネル(MFSC)アテンションモジュールと呼ばれる,新しい2つのアテンションモジュールを設計することを提案する。提案したアテンションモジュールは、DCTに基づいて複数の周波数成分からより多くの話者情報を効果的に取得することができる。我々は,VoxCelebデータセットの総合的な実験を行い,第1報48-UTD法定コーパスのプローブ評価を行った。実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,ネットワークパラメータを追加せずに,相対20.9%,20.2%削減したResNet34-SEおよびECAPA-TDNNシステムより効率よく識別可能な話者表現を生成することができた。

関連論文リスト

Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。 FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T12:33:48Z)
Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文参考訳（メタデータ） (2025-06-24T21:14:59Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文参考訳（メタデータ） (2024-11-07T14:08:35Z)
Exploring Cross-Domain Few-Shot Classification via Frequency-Aware Prompting [37.721042095518044]
クロスドメインなFew-Shot Learningはメタラーニングの発展に大きく貢献している。本稿では,相互に注意を向けた周波数対応プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-06-24T08:14:09Z)
Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition [14.450381668547259]
オープンセット画像認識はコンピュータビジョンにおける課題である。本稿では,高周波情報と低周波情報の両方をよりよく把握できる補完周波数変化認識ネットワークを提案する。 CFANに基づいて,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。
論文参考訳（メタデータ） (2023-07-14T08:15:36Z)
Joint Channel Estimation and Feedback with Masked Token Transformers in Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文参考訳（メタデータ） (2023-06-08T06:15:17Z)
Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-03-27T14:25:52Z)
MFA: TDNN with Multi-scale Frequency-channel Attention for Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文参考訳（メタデータ） (2022-02-03T14:57:05Z)
Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文参考訳（メタデータ） (2021-06-08T12:12:33Z)
Speaker Representation Learning using Global Context Guided Channel and Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文参考訳（メタデータ） (2020-09-02T01:07:29Z)
Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文参考訳（メタデータ） (2020-02-06T21:47:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。