論文の概要: Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding
- arxiv url: http://arxiv.org/abs/2107.06493v1
- Date: Wed, 14 Jul 2021 05:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 00:04:49.466676
- Title: Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding
- Title(参考訳): ニューラルスピーカ埋め込みのための連続多層マルチヘッドアテンション
- Authors: Hongning Zhu, Kong Aik Lee, Haizhou Li
- Abstract要約: 先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
- 参考スコア(独自算出の注目度): 93.16866430882204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a serialized multi-layer multi-head attention for neural
speaker embedding in text-independent speaker verification. In prior works,
frame-level features from one layer are aggregated to form an utterance-level
representation. Inspired by the Transformer network, our proposed method
utilizes the hierarchical architecture of stacked self-attention mechanisms to
derive refined features that are more correlated with speakers. Serialized
attention mechanism contains a stack of self-attention modules to create
fixed-dimensional representations of speakers. Instead of utilizing multi-head
attention in parallel, the proposed serialized multi-layer multi-head attention
is designed to aggregate and propagate attentive statistics from one layer to
the next in a serialized manner. In addition, we employ an input-aware query
for each utterance with the statistics pooling. With more layers stacked, the
neural network can learn more discriminative speaker embeddings. Experiment
results on VoxCeleb1 dataset and SITW dataset show that our proposed method
outperforms other baseline methods, including x-vectors and other x-vectors +
conventional attentive pooling approaches by 9.7% in EER and 8.1% in DCF0.01.
- Abstract(参考訳): 本稿では,テキスト非依存話者検証におけるニューラルスピーカー埋め込みのためのシリアライズされた多層マルチヘッドアテンションを提案する。
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
提案手法はトランスフォーマーネットワークにインスパイアされ,階層型自己認識機構を用いて話者とより相関の深い特徴を導出する。
シリアライズドアテンション機構は、話者の固定次元表現を作成するための自己注意モジュールのスタックを含んでいる。
マルチヘッドアテンションを並列に利用する代わりに,提案するシリアライズ多層マルチヘッドアテンションは,一層から次層への注意統計を連続的に集約し,伝播するように設計されている。
さらに,統計プールを用いた各発話に対して,入力認識クエリを用いる。
レイヤーを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
voxceleb1 データセットと sitw データセットの実験結果から,提案手法は x-vectors および他の x-vectors + 注意プーリングアプローチを含む他のベースライン法を9.7%,dcf0.01 を8.1%上回ることがわかった。
関連論文リスト
- OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - Self-Attentive Multi-Layer Aggregation with Feature Recalibration and
Normalization for End-to-End Speaker Verification System [8.942112181408158]
エンドツーエンド話者認証システムにおいて,特徴の校正と正規化を併用した自己注意型多層アグリゲーションを提案する。
VoxCeleb1評価データセットを用いた実験結果から,提案手法の性能は最先端モデルに匹敵することがわかった。
論文 参考訳(メタデータ) (2020-07-27T08:10:46Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。