Fugu-MT 論文翻訳(概要): End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

論文の概要: End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization

arxiv url: http://arxiv.org/abs/2401.12850v2
Date: Mon, 02 Dec 2024 17:38:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.431141
Title: End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
Title（参考訳）: 話者ダイアリゼーションのためのエンドツーエンド階層グラフクラスタリング
Authors: Prachi Singh, Sriram Ganapathy,
Abstract要約: グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。提案するE-SHARCフレームワークは,グラフベースのクラスタリング手法を用いて,競合ダイアリゼーション結果を提供する。
参考スコア（独自算出の注目度）: 34.90908110610951
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speaker diarization, the task of segmenting an audio recording based on speaker identity, constitutes an important speech pre-processing step for several downstream applications.The conventional approach to diarization involves multiple steps of embedding extraction and clustering, which are often optimized in an isolated fashion. While end-to-end diarization systems attempt to learn a single model for the task, they are often cumbersome to train and require large supervised datasets. In this paper, we propose an end-to-end supervised hierarchical clustering algorithm based on graph neural networks (GNN), called End-to-end Supervised HierARchical Clustering (E-SHARC). The embedding extractor is initialized using a pre-trained x-vector model while the GNN model is trained initially using the x-vector embeddings from the pre-trained model. Finally, the E-SHARC model uses the front-end mel-filterbank features as input and jointly optimizes the embedding extractor and the GNN clustering module, performing representation learning, metric learning, and clustering with end-to-end optimization. Further, with additional inputs from an external overlap detector, the E-SHARC approach is capable of predicting the speakers in the overlapping speech regions. The experimental evaluation on benchmark datasets like AMI, Voxconverse and DISPLACE, illustrates that the proposed E-SHARC framework provides competitive diarization results using graph based clustering methods.
Abstract（参考訳）: 話者識別に基づく音声録音のセグメンテーションタスクである話者ダイアリゼーションは、複数の下流アプリケーションにおいて重要な音声前処理ステップを構成する。エンドツーエンドのダイアリゼーションシステムは、タスクの単一モデルを学習しようとするが、トレーニングが面倒で、大規模な教師付きデータセットを必要とすることが多い。本稿では,グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案し,その手法をE-SHARC(End-to-end Supervised HierARchical Clustering)と呼ぶ。埋め込み抽出器は、事前訓練されたxベクトルモデルを用いて初期化され、一方、GNNモデルは、事前訓練されたモデルからのxベクトル埋め込みを用いて初期化される。最後に、E-SHARCモデルでは、フロントエンドのmel-filterbank機能を入力として使用し、埋め込み抽出器とGNNクラスタリングモジュールを共同で最適化し、表現学習、メトリック学習、クラスタリングをエンドツーエンドの最適化で実行する。さらに、外部重なり検出器からの追加入力により、E-SHARCアプローチは重なり合う音声領域の話者を予測することができる。 AMI, Voxconverse, DISPLACE などのベンチマークデータセットに対する実験的評価は,提案したE-SHARC フレームワークがグラフベースのクラスタリング手法を用いて競合ダイアリゼーション結果を提供することを示す。

関連論文リスト

DiEC: Diffusion Embedded Clustering [0.76629754443761]
ディープクラスタリングは、明確なクラスタ構造を公開する表現に依存します。従来のほとんどのメソッドは、オートエンコーダや自己教師付きエンコーダによる単一の埋め込みを学び、クラスタリングの第一の表現として扱う。本研究では,事前学習した拡散U-Netの中間活性化を直接利用して,この軌道を利用する教師なしクラスタリングフレームワークであるEmbed Diffusion Clustering (DiEC)を提案する。
論文参考訳（メタデータ） (2025-12-24T03:10:00Z)
Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。第2段階では、自己強化微調整戦略を導入する。
論文参考訳（メタデータ） (2025-08-02T08:12:57Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Towards Learnable Anchor for Deep Multi-View Clustering [49.767879678193005]
本稿では,線形時間でクラスタリングを行うDeep Multi-view Anchor Clustering (DMAC)モデルを提案する。最適なアンカーを用いて、全サンプルグラフを計算し、クラスタリングのための識別的埋め込みを導出する。いくつかのデータセットの実験では、最先端の競合に比べてDMACの性能と効率が優れていることが示されている。
論文参考訳（メタデータ） (2025-03-16T09:38:11Z)
Self-Supervised Contrastive Graph Clustering Network via Structural Information Fusion [15.293684479404092]
CGCNと呼ばれる新しいディープグラフクラスタリング手法を提案する。提案手法では,事前学習プロセスにコントラスト信号と深部構造情報を導入している。本手法は,複数の実世界のグラフデータセットに対して実験的に検証されている。
論文参考訳（メタデータ） (2024-08-08T09:49:26Z)
Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。 UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文参考訳（メタデータ） (2024-05-21T13:24:07Z)
Skeleton2vec: A Self-supervised Learning Framework with Contextualized Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-01-01T12:08:35Z)
Learning Neural Eigenfunctions for Unsupervised Semantic Segmentation [12.91586050451152]
スペクトルクラスタリング(英: Spectral clustering)は、異なるクラスタを構築するために画素のスペクトル埋め込みを計算する理論上の解である。現在のアプローチは、まだスペクトル分解の非効率性と、試験データに適用する際の柔軟性に悩まされている。この研究は、スペクトルクラスタリングをニューラルネットワークに基づく固有関数を用いてスペクトル埋め込みを生成するパラメトリックアプローチとしてキャストすることで、これらの問題に対処する。実際には、神経固有関数は軽量であり、事前訓練されたモデルの特徴を入力とし、トレーニング効率を改善し、より密集した予測のための事前訓練されたモデルの可能性を解き放つ。
論文参考訳（メタデータ） (2023-04-06T03:14:15Z)
Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization [41.30830281043803]
話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。本稿では,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,クラスタリングを行う。教師付きクラスタリングは、ノード密度とエッジ存在確率を用いて、収束するまでセグメントをマージする。
論文参考訳（メタデータ） (2023-02-24T16:16:41Z)
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering [18.62774420511154]
異なる長さの入力に異なるクラスタリングアルゴリズムを使用するマルチステージクラスタリング戦略は、話者ダイアリゼーションアプリケーションの多面的課題に対処することができる。この戦略は、CPU、メモリ、バッテリの予算が厳しいオンデバイススピーカーダイアリゼーションシステムのストリーミングに不可欠である。
論文参考訳（メタデータ） (2022-10-25T01:20:24Z)
A Deep Dive into Deep Cluster [0.2578242050187029]
DeepClusterは、ビジュアル表現のシンプルでスケーラブルな教師なし事前トレーニングである。本稿では,DeepClusterの収束と性能が,畳み込み層のランダムフィルタの品質と選択されたクラスタ数の相互作用に依存することを示す。
論文参考訳（メタデータ） (2022-07-24T22:55:09Z)
Tight integration of neural- and clustering-based diarization through deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文参考訳（メタデータ） (2022-02-14T07:45:21Z)
Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文参考訳（メタデータ） (2021-07-14T05:38:48Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。 TS-VADは各時間フレーム上の各話者の活動を直接予測する。 CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文参考訳（メタデータ） (2020-05-14T21:24:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。