論文の概要: Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder
- arxiv url: http://arxiv.org/abs/2508.20474v1
- Date: Thu, 28 Aug 2025 06:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.128316
- Title: Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder
- Title(参考訳): マルチスピーカエンコーダによるダイアリゼーション・分離・ASRの統合
- Authors: Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe,
- Abstract要約: 本稿では、話者ダイアリゼーション(SD)、音声分離(SS)、マルチ話者自動音声認識(ASR)タスクの表現を共同で学習する新しいアーキテクチャを提案する。
我々は,UMEの複数の層から隠された表現を残重畳符号化(RWSE)として活用し,異なる意味レベルからの情報を効果的に活用する。
このジョイントトレーニングアプローチは,タスク間の相互依存性を捕捉し,重なり合う音声データの全体的な性能を向上させる。
- 参考スコア(独自算出の注目度): 53.00939565103065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a unified multi-speaker encoder (UME), a novel architecture that jointly learns representations for speaker diarization (SD), speech separation (SS), and multi-speaker automatic speech recognition (ASR) tasks using a shared speech foundational encoder. We leverage the hidden representations from multiple layers of UME as a residual weighted-sum encoding (RWSE) to effectively use information from different semantic levels, contributing to bottom-up alignment between tasks. This joint training approach captures the inherent interdependencies among the tasks, enhancing overall performance on overlapping speech data. Our evaluations demonstrate that UME substantially improves over the single-task baselines dedicated to SD, SS, and multi-speaker ASR on LibriMix evaluation sets. Notably, for SD, UME outperforms the previous studies, achieving diarization error rates of 1.37% and 2.29% on Libri2Mix and Libri3Mix evaluation sets, respectively.
- Abstract(参考訳): 本稿では,話者ダイアリゼーション (SD), 音声分離 (SS), マルチ話者自動音声認識 (ASR) タスクを共同で学習する新しいアーキテクチャである,統一型マルチスピーカエンコーダ (UME) を提案する。
我々は,複数のUME層からの隠れ表現を残重み付け符号化(RWSE)として活用し,異なる意味レベルからの情報を効果的に活用し,タスク間のボトムアップアライメントに寄与する。
このジョイントトレーニングアプローチは,タスク間の相互依存性を捕捉し,重なり合う音声データの全体的な性能を向上させる。
評価の結果,UME は LibriMix 評価セット上での SD,SS,マルチスピーカ ASR 専用の単一タスクベースラインよりも大幅に改善されていることがわかった。
特に、SDでは、UMEは以前の研究よりも優れており、それぞれLibri2MixとLibri3Mixの評価セットで1.37%と2.29%のダイアリゼーションエラー率を達成した。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。