論文の概要: Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model
- arxiv url: http://arxiv.org/abs/2202.06524v1
- Date: Mon, 14 Feb 2022 07:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:18:38.209426
- Title: Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model
- Title(参考訳): 無限ガウス混合モデルの深部展開によるニューラルおよびクラスタリングに基づくダイアリゼーションの密結合
- Authors: Keisuke Kinoshita, Marc Delcroix, Tomoharu Iwata
- Abstract要約: 本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 84.57667267657382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization has been investigated extensively as an important central
task for meeting analysis. Recent trend shows that integration of end-to-end
neural (EEND)-and clustering-based diarization is a promising approach to
handle realistic conversational data containing overlapped speech with an
arbitrarily large number of speakers, and achieved state-of-the-art results on
various tasks. However, the approaches proposed so far have not realized {\it
tight} integration yet, because the clustering employed therein was not optimal
in any sense for clustering the speaker embeddings estimated by the EEND
module. To address this problem, this paper introduces a {\it trainable}
clustering algorithm into the integration framework, by deep-unfolding a
non-parametric Bayesian model called the infinite Gaussian mixture model
(iGMM). Specifically, the speaker embeddings are optimized during training such
that it better fits iGMM clustering, based on a novel clustering loss based on
Adjusted Rand Index (ARI). Experimental results based on CALLHOME data show
that the proposed approach outperforms the conventional approach in terms of
diarization error rate (DER), especially by substantially reducing speaker
confusion errors, that indeed reflects the effectiveness of the proposed iGMM
integration.
- Abstract(参考訳): 話者ダイアリゼーションは,会議分析の重要課題として広く研究されている。
近年の傾向によると、エンドツーエンドニューラル(EEND)とクラスタリングに基づくダイアリゼーションの統合は、重複した音声を含むリアルな会話データを任意に多数の話者で処理し、様々なタスクで最先端の結果を得るための有望なアプローチである。
しかし、これまでに提案されているアプローチは、eendモジュールによって推定される話者埋め込みをクラスタリングするには最適ではなかったため、まだ統合が実現されていない。
この問題に対処するために,無限ガウス混合モデル (iGMM) と呼ばれる非パラメトリックベイズモデルを深く展開することにより,統合フレームワークに学習可能なクラスタリングアルゴリズムを導入する。
特に、話者埋め込みは、調整されたランダムインデックス(ARI)に基づいた新しいクラスタリング損失に基づいて、iGMMクラスタリングに適合するようにトレーニング中に最適化される。
CALLHOMEデータに基づく実験結果から,提案手法はダイアリゼーション誤差率(DER)において従来の手法よりも優れており,特に話者混同誤差を大幅に低減することで,提案したiGMM統合の有効性を実際に反映していることがわかった。
関連論文リスト
- Rethinking Clustered Federated Learning in NOMA Enhanced Wireless
Networks [60.09912912343705]
本研究では,新しいクラスタ化フェデレーション学習(CFL)アプローチと,非独立かつ同一に分散した(非IID)データセットを統合することのメリットについて検討する。
データ分布における非IIDの度合いを測定する一般化ギャップの詳細な理論的解析について述べる。
非IID条件によって引き起こされる課題に対処する解決策は、特性の分析によって提案される。
論文 参考訳(メタデータ) (2024-03-05T17:49:09Z) - Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Robust Consensus Clustering and its Applications for Advertising
Forecasting [18.242055675730253]
我々は,専門家の意見に共通する根拠となる真実を見出すことのできる,ロバストなコンセンサスクラスタリングという新しいアルゴリズムを提案する。
提案手法を実世界の広告キャンペーンセグメンテーションと予測タスクに適用する。
論文 参考訳(メタデータ) (2022-12-27T21:49:04Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Deep Conditional Gaussian Mixture Model for Constrained Clustering [7.070883800886882]
制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を利用することができる。
本稿では、直感的で解釈可能で、勾配変動推論の枠組みで効率的に訓練できる制約付きクラスタリングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T13:38:09Z) - Unsupervised Clustered Federated Learning in Complex Multi-source
Acoustic Environments [75.8001929811943]
現実的で挑戦的なマルチソース・マルチルーム音響環境を導入する。
本稿では,音響シーンの変動を考慮したクラスタリング制御手法を提案する。
提案手法はクラスタリングに基づく測度を用いて最適化され,ネットワークワイド分類タスクによって検証される。
論文 参考訳(メタデータ) (2021-06-07T14:51:39Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized
Maximum Eigengap [43.82618103722998]
本稿では,話者ダイアリゼーションの文脈において,クラスタリングアルゴリズムのパラメータを自動チューニングできる新しいスペクトルクラスタリングフレームワークを提案する。
CALLHOME評価セットにおける話者誤り率の17%の相対的な改善は,自動チューニングによるスペクトルクラスタリングの有効性を示す。
論文 参考訳(メタデータ) (2020-03-05T02:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。