論文の概要: Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding
with Sequence-to-Sequence Architecture
- arxiv url: http://arxiv.org/abs/2309.09180v2
- Date: Tue, 26 Dec 2023 07:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 01:34:27.423359
- Title: Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding
with Sequence-to-Sequence Architecture
- Title(参考訳): シーケンス・ツー・シーケンスアーキテクチャを組み込んだメモリ対応マルチスピーカを用いたニューラルスピーカダイアリゼーション
- Authors: Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue,
Shuangqing Qian, Shilong Wu, Jun Du, Chin-Hui Lee
- Abstract要約: 本稿では,メモリ対応多話者埋め込みとシーケンス・ツー・シーケンスアーキテクチャを用いたニューラルスピーカダイアリゼーションシステムを提案する。
NSD-MS2SはCHiME-7 EVALセットで15.9%のマクロダイアリゼーション誤差率(DER)を達成した。
- 参考スコア(独自算出の注目度): 45.476602010520764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel neural speaker diarization system using memory-aware
multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S),
which integrates the strengths of memory-aware multi-speaker embedding (MA-MSE)
and sequence-to-sequence (Seq2Seq) architecture, leading to improvement in both
efficiency and performance. Next, we further decrease the memory occupation of
decoding by incorporating input features fusion and then employ a multi-head
attention mechanism to capture features at different levels. NSD-MS2S achieved
a macro diarization error rate (DER) of 15.9% on the CHiME-7 EVAL set, which
signifies a relative improvement of 49% over the official baseline system, and
is the key technique for us to achieve the best performance for the main track
of CHiME-7 DASR Challenge. Additionally, we introduce a deep interactive module
(DIM) in MA-MSE module to better retrieve a cleaner and more discriminative
multi-speaker embedding, enabling the current model to outperform the system we
used in the CHiME-7 DASR Challenge. Our code will be available at
https://github.com/liyunlongaaa/NSD-MS2S.
- Abstract(参考訳): メモリ対応多話者埋め込み(MA-MSE)とシーケンシャル・ツー・シーケンス(Seq2Seq)アーキテクチャの長所を統合し,効率と性能を両立させるメモリ対応多話者埋め込み(NSD-MS2S)を用いたニューラルスピーカダイアリゼーションシステムを提案する。
次に、入力特徴フュージョンを組み込んでデコーディングのメモリ占有を更に減らし、異なるレベルの特徴をキャプチャするためにマルチヘッドアテンション機構を用いる。
nsd-ms2sは、chime-7 evalセット上で15.9%のマクロダイアリゼーションエラーレート(der)を達成し、これは公式ベースラインシステムと比較して49%の相対的な改善を示し、chime-7 dasrチャレンジのメイントラックで最高の性能を達成するための重要な技術である。
さらに,ma-mseモジュールにディープインタラクティブモジュール(dim)を導入して,よりクリーンでより識別可能なマルチスピーカー埋め込みの検索を改善し,現在のモデルがchime-7 dasrチャレンジで使用したシステムよりも優れています。
私たちのコードはhttps://github.com/liyunlongaaa/NSD-MS2Sで公開されます。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Multi-Head State Space Model for Speech Recognition [44.04124537862432]
状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示した。
本稿では,特殊なゲーティング機構を備えたマルチヘッド状態空間(MH-SSM)アーキテクチャを提案する。
変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-21T16:28:57Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - Self-Gated Memory Recurrent Network for Efficient Scalable HDR
Deghosting [59.04604001936661]
本稿では,任意の長さの動的シーケンスを浮き彫りにする新しいネットワーク型HDRデゴースト法を提案する。
本稿では,SGM(Self-Gated Memory)セルという新たなリカレントセルアーキテクチャを導入する。
提案手法は,既存の3つの公開データセットを定量的に比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-24T12:36:33Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - MCSAE: Masked Cross Self-Attentive Encoding for Speaker Embedding [8.942112181408158]
本稿では,ResNet を用いたマスク型クロスアテンティブ符号化 (MCSAE) を提案する。
ハイレベル層と低レベル層の両方の機能に焦点を当てている。
実験の結果, 誤差率は2.63%, 最小検出コストは0.1453であった。
論文 参考訳(メタデータ) (2020-01-28T04:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。