論文の概要: Selective Kernel Attention for Robust Speaker Verification
- arxiv url: http://arxiv.org/abs/2204.01005v1
- Date: Sun, 3 Apr 2022 06:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:00:47.158975
- Title: Selective Kernel Attention for Robust Speaker Verification
- Title(参考訳): ロバスト話者検証のための選択的カーネル注意
- Authors: Sung Hwan Mun, Jee-weon Jung and Nam Soo Kim
- Abstract要約: 畳み込み層に対する選択的カーネルアテンション(SKA)機構を導入する。
SKA機構により、各畳み込み層はデータ駆動方式でカーネルサイズを適応的に選択できる。
SKA機構を用いた3つのモジュール変種を提案する。
- 参考スコア(独自算出の注目度): 17.841434987294242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent state-of-the-art speaker verification architectures adopt multi-scale
processing and frequency-channel attention techniques. However, their full
potential may not have been exploited because these techniques' receptive
fields are fixed where most convolutional layers operate with specified kernel
sizes such as 1, 3 or 5. We aim to further improve this line of research by
introducing a selective kernel attention (SKA) mechanism. The SKA mechanism
allows each convolutional layer to adaptively select the kernel size in a
data-driven fashion based on an attention mechanism that exploits both
frequency and channel domain using the previous layer's output. We propose
three module variants using the SKA mechanism whereby two modules are applied
in front of an ECAPA-TDNN model, and the other is combined with the Res2Net
backbone block. Experimental results demonstrate that our proposed model
consistently outperforms the conventional counterpart on the three different
evaluation protocols in terms of both equal error rate and minimum detection
cost function. In addition, we present a detailed analysis that helps
understand how the SKA module works.
- Abstract(参考訳): 近年の最先端話者認証アーキテクチャはマルチスケール処理と周波数チャネルアテンション技術を採用している。
しかし、これらのテクニックの受容フィールドは、ほとんどの畳み込み層が1, 3, 5のような特定のカーネルサイズで動作するように固定されているため、その潜在能力は利用されなかったかもしれない。
我々は,選択的カーネルアテンション(ska)機構を導入することで,この研究をさらに改善することを目指している。
SKA機構により、各畳み込み層は、前層の出力を使用して周波数とチャネル領域の両方を利用するアテンション機構に基づいて、データ駆動方式でカーネルサイズを適応的に選択することができる。
本稿では,2つのモジュールをECAPA-TDNNモデルの前に適用し,もう1つのモジュールをRes2Netバックボーンブロックと組み合わせるSKA機構を用いた3つのモジュール変種を提案する。
実験結果から,提案手法は,誤差率と最小検出コストの両面で,従来の3つの評価プロトコルよりも常に優れていることがわかった。
さらに,SKAモジュールの動作状況の解明を支援する詳細な解析を行う。
関連論文リスト
- ANN-Enhanced Detection of Multipartite Entanglement in a Three-Qubit NMR Quantum Processor [2.715284063484557]
人工ニューラルネットワーク(ANN)モデルを用いて,実験によって生成された3量子状態の絡み合いクラスを同定する。
ANNモデルは、州における真のマルチパーティ・エンタングルメント(GME)の存在を検出することもできる。
論文 参考訳(メタデータ) (2024-09-29T15:34:11Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - 4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict
decoders [29.799797974513552]
本稿では,CTC,アテンション,RNN-T,マスク予測の4デコーダ共同モデリング(4D)を提案する。
4つのデコーダは、アプリケーションシナリオに応じて簡単に切り替えられるように、共同でトレーニングされている。
実験の結果,提案したモデルが一貫してWERを減少させることがわかった。
論文 参考訳(メタデータ) (2022-12-21T07:15:59Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - A High-Performance Customer Churn Prediction System based on
Self-Attention [9.83578821760002]
本研究は,商業銀行顧客に関する公開データセットの実験を行う。
本稿では,自己注意強化型ニューラルネットワーク(HNNSAE)を提案する。
論文 参考訳(メタデータ) (2022-06-03T12:16:24Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。