論文の概要: Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization
- arxiv url: http://arxiv.org/abs/2406.18679v1
- Date: Wed, 26 Jun 2024 18:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:07:31.629872
- Title: Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization
- Title(参考訳): 埋め込み型話者:長期型ニューラルダイアリゼーションへの埋め込み不要アプローチ
- Authors: Xiang Li, Vivek Govindan, Rohit Paturi, Sundararajan Srinivasan,
- Abstract要約: 本研究では,話者埋め込みを別途行わずに,EENDを局所的かつグローバルに長大な音声に適用する新しいフレームワークを提案する。
このアプローチは、コールホーム・アメリカン・イングリッシュとRT03-CTSデータセットにおける従来の1パスEENDよりも13%と10%の大幅な削減を実現している。
- 参考スコア(独自算出の注目度): 8.737789422658247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end neural diarization (EEND) models offer significant improvements over traditional embedding-based Speaker Diarization (SD) approaches but falls short on generalizing to long-form audio with large number of speakers. EEND-vector-clustering method mitigates this by combining local EEND with global clustering of speaker embeddings from local windows, but this requires an additional speaker embedding framework alongside the EEND module. In this paper, we propose a novel framework applying EEND both locally and globally for long-form audio without separate speaker embeddings. This approach achieves significant relative DER reduction of 13% and 10% over the conventional 1-pass EEND on Callhome American English and RT03-CTS datasets respectively and marginal improvements over EEND-vector-clustering without the need for additional speaker embeddings. Furthermore, we discuss the computational complexity of our proposed framework and explore strategies for reducing processing times.
- Abstract(参考訳): エンドツーエンドのニューラルダイアリゼーション(EEND)モデルでは、従来の埋め込みベースの話者ダイアリゼーション(SD)アプローチよりも大幅に改善されている。
EEND-vector-clusteringメソッドは、ローカルEENDとローカルウィンドウからの話者埋め込みのグローバルクラスタリングを組み合わせることでこれを緩和するが、EENDモジュールと並行して追加の話者埋め込みフレームワークが必要である。
本稿では,話者埋め込みを別途行うことなく,EENDを局所的かつグローバルに長大な音声に適用する新しいフレームワークを提案する。
このアプローチは、コールホーム・アメリカン・イングリッシュとRT03-CTSデータセットにおける従来の1パスEENDよりも13%と10%の大幅な削減を実現し、追加の話者埋め込みを必要としないEEND-vector-clusteringに対する限界改善を実現している。
さらに,提案するフレームワークの計算複雑性について考察し,処理時間を短縮するための戦略を検討する。
関連論文リスト
- Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Online Neural Diarization of Unlimited Numbers of Speakers [34.465500195087]
本稿では,無数の話者に対して話者ダイアリゼーションを行う手法について述べる。
アクセサベースのEENDの話者の出力数は、経験的に上限づけられている。
EEND-GLAは、アトラクタベースのEENDに教師なしクラスタリングを導入することで、この問題を解決する。
論文 参考訳(メタデータ) (2022-06-06T08:48:26Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Speaker diarization with session-level speaker embedding refinement
using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2020-05-22T19:52:51Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。