論文の概要: Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge
- arxiv url: http://arxiv.org/abs/2202.04814v1
- Date: Thu, 10 Feb 2022 03:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 17:04:54.591960
- Title: Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge
- Title(参考訳): ICASSP 2022多チャンネル多人数会議記述チャレンジのためのRoyalflush Speaker Diarizationシステム
- Authors: Jingguang Tian, Xinhui Hu, Xinkang Xu
- Abstract要約: マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
- 参考スコア(独自算出の注目度): 4.022057598291766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes the Royalflush speaker diarization system submitted to
the Multi-channel Multi-party Meeting Transcription Challenge. Our system
comprises speech enhancement, overlapped speech detection, speaker embedding
extraction, speaker clustering, speech separation and system fusion. In this
system, we made three contributions. First, we propose an architecture of
combining the multi-channel and U-Net-based models, aiming at utilizing the
benefits of these two individual architectures, for far-field overlapped speech
detection. Second, in order to use overlapped speech detection model to help
speaker diarization, a speech separation based overlapped speech handling
approach, in which the speaker verification technique is further applied, is
proposed. Third, we explore three speaker embedding methods, and obtained the
state-of-the-art performance on the CNCeleb-E test set. With these proposals,
our best individual system significantly reduces DER from 15.25% to 6.40%, and
the fusion of four systems finally achieves a DER of 6.30% on the far-field
Alimeeting evaluation set.
- Abstract(参考訳): 本稿では,マルチチャネル多人数会議記述チャレンジに提出されたRoyalflush話者ダイアリゼーションシステムについて述べる。
本システムでは,音声強調,重複音声認識,話者埋め込み抽出,話者クラスタリング,音声分離,システム融合を含む。
このシステムでは、私たちは3つの貢献をした。
まず,マルチチャネルモデルとu-netモデルを組み合わせて,これら2つの個別アーキテクチャの利点を活用し,遠距離重複音声検出を実現するアーキテクチャを提案する。
第2に,話者ダイアリゼーションを支援するために重畳音声検出モデルを用いることで,話者検証技術がさらに適用された話者分離に基づく重畳音声処理手法を提案する。
第3に,CNCeleb-Eテストセットにおける3つの話者埋め込み手法を探索し,最先端の性能を得た。
これらの提案により、最良の個人システムはDERを15.25%から6.40%に大幅に削減し、4つのシステムの融合は最終的に遠距離場平均化評価セットのDERを6.30%達成する。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge [43.262531688434215]
ターゲットスピーカ音声活動検出(TS-VAD)における2つの改善点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
論文 参考訳(メタデータ) (2022-02-10T06:06:48Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - A Real-time Speaker Diarization System Based on Spatial Spectrum [14.189768987932364]
本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
論文 参考訳(メタデータ) (2021-07-20T08:25:23Z) - Adapting Speaker Embeddings for Speaker Diarisation [30.383712356205084]
本論文の目的は,話者ダイアリゼーションの問題を解決するための話者埋め込みの適応である。
本研究では,話者埋め込みをダイアリゼーションに適合させるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。
その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。
論文 参考訳(メタデータ) (2021-04-07T03:04:47Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Identify Speakers in Cocktail Parties with End-to-End Attention [48.96655134462949]
本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
論文 参考訳(メタデータ) (2020-05-22T22:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。