論文の概要: ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross
Attention
- arxiv url: http://arxiv.org/abs/2305.12121v1
- Date: Sat, 20 May 2023 06:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:38:28.964078
- Title: ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross
Attention
- Title(参考訳): ACA-Net:非対称的クロスアテンションを用いた軽量話者検証に向けて
- Authors: Jia Qi Yip, Tuan Truong, Dianwen Ng, Chong Zhang, Yukun Ma, Trung Hieu
Nguyen, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma
- Abstract要約: 我々は,話者検証(SV)のための軽量でグローバルなコンテキスト対応話者埋め込み抽出器であるACA-Netを提案する。
ACA-Netは、時間次元上のプールに固定関数を適用する既存のSVモデルとは異なり、時間変動に適応する効率的なグローバル特徴抽出器として機能する。
WSJ0-1talker を用いた実験により,ACA-Net は,パラメータの1/5しか使用せず,EER の相対的改善率が5% 向上することを示す。
- 参考スコア(独自算出の注目度): 37.78176088948518
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose ACA-Net, a lightweight, global context-aware
speaker embedding extractor for Speaker Verification (SV) that improves upon
existing work by using Asymmetric Cross Attention (ACA) to replace temporal
pooling. ACA is able to distill large, variable-length sequences into small,
fixed-sized latents by attending a small query to large key and value matrices.
In ACA-Net, we build a Multi-Layer Aggregation (MLA) block using ACA to
generate fixed-sized identity vectors from variable-length inputs. Through
global attention, ACA-Net acts as an efficient global feature extractor that
adapts to temporal variability unlike existing SV models that apply a fixed
function for pooling over the temporal dimension which may obscure information
about the signal's non-stationary temporal variability. Our experiments on the
WSJ0-1talker show ACA-Net outperforms a strong baseline by 5\% relative
improvement in EER using only 1/5 of the parameters.
- Abstract(参考訳): 本稿では,非対称クロスアテンション(aca)を用いて時間的プーリングを置き換えることにより既存の作業を改善する,話者検証のための軽量なグローバルコンテキスト認識型話者埋め込み抽出器(sv)であるaca-netを提案する。
ACAは、大きなキーおよび値行列への小さなクエリに参加することで、大きな可変長配列を小さな固定サイズの潜水剤に蒸留することができる。
ACA-Netでは,ACAを用いてMLAブロックを構築し,可変長入力から固定サイズIDベクトルを生成する。
グローバルな注目を通して、ACA-Netは、信号の静止しない時間的変動に関する情報を隠蔽する時間的次元をプールするために固定関数を適用する既存のSVモデルとは異なり、時間的変動に適応する効率的なグローバル特徴抽出器として機能する。
WSJ0-1talker 実験により,ACA-Net は,パラメータの 1/5 のみを用いて,EER の相対的改善率を 5 % 向上することを示す。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - SWEM: Towards Real-Time Video Object Segmentation with Sequential
Weighted Expectation-Maximization [36.43412404616356]
本稿では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。
SWEMは、シーケンシャル重み付きEMアルゴリズムを活用することで、フレーム内およびフレーム間類似の機能を組み合わせる。
一般的に使用されているDAVISとYouTube-VOSデータセットの実験は、高効率(36 FPS)と高パフォーマンス(84.3%$mathcalJ&mathcalF$ on DAVIS 2017 Validationデータセット)を検証する。
論文 参考訳(メタデータ) (2022-08-22T08:03:59Z) - Self-Gated Memory Recurrent Network for Efficient Scalable HDR
Deghosting [59.04604001936661]
本稿では,任意の長さの動的シーケンスを浮き彫りにする新しいネットワーク型HDRデゴースト法を提案する。
本稿では,SGM(Self-Gated Memory)セルという新たなリカレントセルアーキテクチャを導入する。
提案手法は,既存の3つの公開データセットを定量的に比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-24T12:36:33Z) - PoNet: Pooling Network for Efficient Token Mixing in Long Sequences [34.657602765639375]
本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。
Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、競合する精度を実現している。
論文 参考訳(メタデータ) (2021-10-06T01:07:54Z) - "Forget" the Forget Gate: Estimating Anomalies in Videos using
Self-contained Long Short-Term Memory Networks [20.211951213040937]
本稿では,LSTMに基づく新たな自己完結型ネットワークを学習し,ビデオ中の異常を検出する手法を提案する。
忘れゲートを破棄し,シグモイドを活性化させることにより,両ゲート型軽量LSTM細胞を導入する。
取り外しゲートを除去するとLSTMセルが簡素化され、性能効率と計算効率が向上する。
論文 参考訳(メタデータ) (2021-04-03T20:43:49Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Adaptive Checkpoint Adjoint Method for Gradient Estimation in Neural ODE [18.97779074903382]
本稿では,新しいアダプティブチェックポイントアジョイント(ACA)手法により,ベンチマークタスクにおけるNODEの性能が向上することを示す。
ACAは、前モード軌跡を逆モード軌跡として記録する軌道チェックポイント戦略を適用し、精度を保証する。
画像分類タスクでは, 副次法やナイーブ法と比較して, ACAはトレーニング時間の半分で誤り率の半分を達成している。
論文 参考訳(メタデータ) (2020-06-03T19:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。