論文の概要: Powerset multi-class cross entropy loss for neural speaker diarization
- arxiv url: http://arxiv.org/abs/2310.13025v1
- Date: Thu, 19 Oct 2023 06:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 02:06:59.190084
- Title: Powerset multi-class cross entropy loss for neural speaker diarization
- Title(参考訳): ニューラルネットワークダイアリゼーションのためのパワーセット多クラスクロスエントロピー損失
- Authors: Alexis Plaquet (IRIT-SAMoVA), Herv\'e Bredin (IRIT-SAMoVA)
- Abstract要約: EENDラインは、フレームワイド多ラベル分類問題として話者ダイアリゼーションに対処し、置換不変のトレーニングを行う。
マルチラベルからパワーセットのマルチクラス分類に切り替えることを提案する。
この定式化がドメインミスマッチに対するパフォーマンスと堅牢性を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since its introduction in 2019, the whole end-to-end neural diarization
(EEND) line of work has been addressing speaker diarization as a frame-wise
multi-label classification problem with permutation-invariant training. Despite
EEND showing great promise, a few recent works took a step back and studied the
possible combination of (local) supervised EEND diarization with (global)
unsupervised clustering. Yet, these hybrid contributions did not question the
original multi-label formulation. We propose to switch from multi-label (where
any two speakers can be active at the same time) to powerset multi-class
classification (where dedicated classes are assigned to pairs of overlapping
speakers). Through extensive experiments on 9 different benchmarks, we show
that this formulation leads to significantly better performance (mostly on
overlapping speech) and robustness to domain mismatch, while eliminating the
detection threshold hyperparameter, critical for the multi-label formulation.
- Abstract(参考訳): 2019年に導入されて以来、エンドツーエンドのニューラルネットワークダイアリゼーション(eend)の作業ライン全体は、置換不変トレーニングを伴うフレーム毎のマルチラベル分類問題として話者ダイアリゼーションに対処してきた。
EENDは大きな可能性を示していたが、最近のいくつかの研究は一歩後退し、(ローカル)教師付きEENDダイアリゼーションと(グローバル)教師なしクラスタリングの組み合わせについて研究した。
しかし、これらのハイブリッドな貢献はもともとのマルチラベルの定式化に疑問を呈さなかった。
本稿では,複数の話者が同時に活動できるマルチラベルからパワーセットのマルチクラス分類(重複する話者のペアに専用クラスを割り当てる)への切り替えを提案する。
9つの異なるベンチマークの広範な実験を通して、この定式化は、マルチラベル定式化に不可欠な検出しきい値ハイパーパラメータを排除しつつ、ドメインミスマッチに対する性能(主に重複音声)とロバスト性を著しく向上させることを示した。
関連論文リスト
- Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens [45.161909551392085]
本稿では,話者クラスタリングにより得られた話者クラストークンを付加した新しいアテンションベースのエンコーダデコーダ手法を提案する。
推論中、予測された話者クラスタトークンに条件付き複数の認識仮説を選択する。
これらの仮説は、正規化された編集距離に基づいて集約的な階層的クラスタリングによってマージされる。
論文 参考訳(メタデータ) (2024-09-24T04:31:46Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Paragraph-based Transformer Pre-training for Multi-Sentence Inference [99.59693674455582]
マルチ候補推論タスクの微調整に使用する場合,一般的な事前学習型トランスフォーマーは性能が良くないことを示す。
次に、複数の入力文にまたがる段落レベルの意味をモデル化する新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2022-05-02T21:41:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。