論文の概要: End-to-End Speaker Diarization as Post-Processing
- arxiv url: http://arxiv.org/abs/2012.10055v2
- Date: Wed, 23 Dec 2020 15:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:05:22.365469
- Title: End-to-End Speaker Diarization as Post-Processing
- Title(参考訳): エンド・ツー・エンド話者ダイアリゼーション
- Authors: Shota Horiguchi, Paola Garcia, Yusuke Fujita, Shinji Watanabe, Kenji
Nagamatsu
- Abstract要約: クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
- 参考スコア(独自算出の注目度): 64.12519350944572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the utilization of an end-to-end diarization model as
post-processing of conventional clustering-based diarization. Clustering-based
diarization methods partition frames into clusters of the number of speakers;
thus, they typically cannot handle overlapping speech because each frame is
assigned to one speaker. On the other hand, some end-to-end diarization methods
can handle overlapping speech by treating the problem as multi-label
classification. Although some methods can treat a flexible number of speakers,
they do not perform well when the number of speakers is large. To compensate
for each other's weakness, we propose to use a two-speaker end-to-end
diarization method as post-processing of the results obtained by a
clustering-based method. We iteratively select two speakers from the results
and update the results of the two speakers to improve the overlapped region.
Experimental results show that the proposed algorithm consistently improved the
performance of the state-of-the-art methods across CALLHOME, AMI, and DIHARD II
datasets.
- Abstract(参考訳): 本稿では,従来のクラスタリングによるダイアリゼーションの後処理として,エンドツーエンドダイアリゼーションモデルの利用について検討する。
クラスタリングに基づくダイアリゼーション手法では、フレームを話者数のクラスタに分割する。
一方,いくつかのエンドツーエンドダイアリゼーション手法では,問題を多ラベル分類として扱うことで重なり合う音声を処理できる。
柔軟な話者数を扱う方法もあるが、話者数が大きい場合にはうまく機能しない。
そこで本研究では,クラスタリング法により得られた結果の処理後処理として,両話者間のダイアリゼーション手法を提案する。
結果から2つの話者を反復的に選択し、2つの話者の結果を更新し、重なり合う領域を改善する。
実験結果から,提案アルゴリズムはCALLHOME,AMI,DIHARD IIデータセット間の最先端手法の性能を一貫して向上することが示された。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Coarse-to-Fine Recursive Speech Separation for Unknown Number of
Speakers [8.380514397417457]
本稿では,マルチパス音源抽出問題として,未知話者数による音声分離を定式化する。
実験の結果,提案手法は話者数が異なるWSJ0データセット上で,最先端のパフォーマンスをアーカイブしていることがわかった。
論文 参考訳(メタデータ) (2022-03-30T04:45:34Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors [51.01295414889487]
本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。
提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
論文 参考訳(メタデータ) (2021-07-04T05:34:21Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Neural Speaker Diarization with Speaker-Wise Chain Rule [45.60980782843576]
話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-06-02T17:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。