論文の概要: Exploring Speaker Diarization with Mixture of Experts
- arxiv url: http://arxiv.org/abs/2506.14750v1
- Date: Tue, 17 Jun 2025 17:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.596827
- Title: Exploring Speaker Diarization with Mixture of Experts
- Title(参考訳): 専門家の混在による話者ダイアリゼーションの探索
- Authors: Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Hang Chen, Jun Du,
- Abstract要約: 本稿では,シーケンス・ツー・シーケンスアーキテクチャを組み込んだメモリ対応マルチスピーカを用いたニューラルスピーカダイアリゼーションシステムを提案する。
提案手法は,現実のシナリオに挑戦する上での有効性を示す。
- 参考スコア(独自算出の注目度): 39.02603646215667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates a memory-aware multi-speaker embedding module with a sequence-to-sequence architecture. The system leverages a memory module to enhance speaker embeddings and employs a Seq2Seq framework to efficiently map acoustic features to speaker labels. Additionally, we explore the application of mixture of experts in speaker diarization, and introduce a Shared and Soft Mixture of Experts (SS-MoE) module to further mitigate model bias and enhance performance. Incorporating SS-MoE leads to the extended model NSD-MS2S-SSMoE. Experiments on multiple complex acoustic datasets, including CHiME-6, DiPCo, Mixer 6 and DIHARD-III evaluation sets, demonstrate meaningful improvements in robustness and generalization. The proposed methods achieve state-of-the-art results, showcasing their effectiveness in challenging real-world scenarios.
- Abstract(参考訳): 本稿では,シーケンシャル・ツー・シーケンス・アーキテクチャ(NSD-MS2S)を組み込んだメモリ対応多話者埋め込みモジュールとシーケンシャル・ツー・シーケンス・アーキテクチャを組み合わせた,新しいニューラルスピーカダイアリゼーションシステムを提案する。
このシステムはメモリモジュールを活用して話者埋め込みを強化し、Seq2Seqフレームワークを使用して音響特性を話者ラベルに効率的にマッピングする。
さらに、話者ダイアリゼーションにおけるエキスパートの混合の適用について検討し、モデルバイアスをさらに緩和し、性能を高めるために、Shared and Soft Mixture of Experts (SS-MoE)モジュールを導入する。
SS-MoE は拡張型 NSD-MS2S-SSMoE に導かれる。
CHiME-6, DiPCo, Mixer 6 および DIHARD-III 評価セットを含む複数の複雑な音響データセットの実験は、堅牢性と一般化の有意義な改善を示している。
提案手法は,現実のシナリオに挑戦する上での有効性を示す。
関連論文リスト
- MoHAVE: Mixture of Hierarchical Audio-Visual Experts for Robust Speech Recognition [23.406334722946163]
MoHAVE(Mixture of Hierarchical Audio-Visual Experts)は、スケーラビリティの制約に対処するために設計された、新しい堅牢なAVSRフレームワークである。
MoHAVEは、モダリティ固有の専門家グループを活性化し、計算オーバーヘッドを最小限にした様々なオーディオ視覚入力への動的適応を保証する。
論文 参考訳(メタデータ) (2025-02-11T11:01:05Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding
with Sequence-to-Sequence Architecture [45.476602010520764]
本稿では,メモリ対応多話者埋め込みとシーケンス・ツー・シーケンスアーキテクチャを用いたニューラルスピーカダイアリゼーションシステムを提案する。
NSD-MS2SはCHiME-7 EVALセットで15.9%のマクロダイアリゼーション誤差率(DER)を達成した。
論文 参考訳(メタデータ) (2023-09-17T07:08:06Z) - The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge [43.262531688434215]
ターゲットスピーカ音声活動検出(TS-VAD)における2つの改善点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
論文 参考訳(メタデータ) (2022-02-10T06:06:48Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Improving Multi-Scale Aggregation Using Feature Pyramid Module for
Robust Speaker Verification of Variable-Duration Utterances [15.887661651035712]
トップダウン経路と横方向接続を介して複数の層から特徴の話者識別情報を強化するモジュールを提案する。
短い発話と長い発話の両方において、最先端のアプローチよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-04-07T08:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。