論文の概要: TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
- arxiv url: http://arxiv.org/abs/2303.05397v2
- Date: Wed, 13 Dec 2023 12:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:02:21.332457
- Title: TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization
- Title(参考訳): TOLD: 話者ダイアリゼーションのための2段階オーバーラップ認識フレームワーク
- Authors: Jiaming Wang, Zhihao Du, Shiliang Zhang
- Abstract要約: 話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 54.41494515178297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end neural diarization (EEND) is introduced and achieves
promising results in speaker-overlapped scenarios. In EEND, speaker diarization
is formulated as a multi-label prediction problem, where speaker activities are
estimated independently and their dependency are not well considered. To
overcome these disadvantages, we employ the power set encoding to reformulate
speaker diarization as a single-label classification problem and propose the
overlap-aware EEND (EEND-OLA) model, in which speaker overlaps and dependency
can be modeled explicitly. Inspired by the success of two-stage hybrid systems,
we further propose a novel Two-stage OverLap-aware Diarization framework (TOLD)
by involving a speaker overlap-aware post-processing (SOAP) model to
iteratively refine the diarization results of EEND-OLA. Experimental results
show that, compared with the original EEND, the proposed EEND-OLA achieves a
14.39% relative improvement in terms of diarization error rates (DER), and
utilizing SOAP provides another 19.33% relative improvement. As a result, our
method TOLD achieves a DER of 10.14% on the CALLHOME dataset, which is a new
state-of-the-art result on this benchmark to the best of our knowledge.
- Abstract(参考訳): 近年、エンドツーエンドのニューラルネットワークダイアリゼーション(eend)が導入され、話者オーバーラップシナリオで有望な結果が得られている。
eendでは、話者ダイアリゼーションはマルチラベル予測問題として定式化され、話者の活動は独立して見積もられ、その依存が十分に考慮されていない。
これらの欠点を克服するために,単一ラベル分類問題として話者ダイアリゼーションを再構成するパワーセット符号化を採用し,話者重複と依存を明示的にモデル化できるオーバーラップアウェアeend(eend-ola)モデルを提案する。
2段階ハイブリッドシステムの成功に触発されて、eend-olaのダイアリゼーション結果を反復的に洗練するために、スピーカーオーバーラップアウェアポストプロセッシング(soap)モデルを用いて、新しい2段階オーバーラップアウェアダイアリゼーションフレームワーク(told)を提案する。
実験の結果、eend-olaは元々のeendと比較してダイアリゼーションエラー率(der)の点で14.39%の相対的な改善を達成し、soapを利用することでさらに19.33%の相対的な改善が得られた。
その結果,TOLD は CALLHOME データセット上で 10.14% の DER を達成することができた。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - A Deliberation-based Joint Acoustic and Text Decoder [25.37972380217875]
本稿では,ペア化データと未ペア化テキストデータの組み合わせによるトレーニングにより,ASRの性能を向上させる2パスE2E音声認識モデルを提案する。
提案手法は,Dreliberation-JATDとJATDの非ペアテキストデータを用いたスペル訂正機能を組み合わせて,さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-03-23T18:02:23Z) - X-SepFormer: End-to-end Speaker Extraction Network with Explicit
Optimization on Speaker Confusion [5.4878772986187565]
本稿では、損失スキームとSepFormerのバックボーンを備えたエンドツーエンドのTSEモデルを提案する。
19.4dBのSI-SDRiと3.81のPSSQでは、私たちの最良のシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-09T04:00:29Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。