論文の概要: Highly Efficient Real-Time Streaming and Fully On-Device Speaker
Diarization with Multi-Stage Clustering
- arxiv url: http://arxiv.org/abs/2210.13690v4
- Date: Mon, 8 Jan 2024 17:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:34:07.052004
- Title: Highly Efficient Real-Time Streaming and Fully On-Device Speaker
Diarization with Multi-Stage Clustering
- Title(参考訳): マルチステージクラスタリングによる高効率リアルタイムストリーミングと全デバイス話者ダイアリゼーション
- Authors: Quan Wang, Yiling Huang, Han Lu, Guanlong Zhao, Ignacio Lopez Moreno
- Abstract要約: 異なる長さの入力に異なるクラスタリングアルゴリズムを使用するマルチステージクラスタリング戦略は、話者ダイアリゼーションアプリケーションの多面的課題に対処することができる。
この戦略は、CPU、メモリ、バッテリの予算が厳しいオンデバイススピーカーダイアリゼーションシステムのストリーミングに不可欠である。
- 参考スコア(独自算出の注目度): 18.62774420511154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent research advances in speaker diarization mostly focus on
improving the quality of diarization results, there is also an increasing
interest in improving the efficiency of diarization systems. In this paper, we
demonstrate that a multi-stage clustering strategy that uses different
clustering algorithms for input of different lengths can address multi-faceted
challenges of on-device speaker diarization applications. Specifically, a
fallback clusterer is used to handle short-form inputs; a main clusterer is
used to handle medium-length inputs; and a pre-clusterer is used to compress
long-form inputs before they are processed by the main clusterer. Both the main
clusterer and the pre-clusterer can be configured with an upper bound of the
computational complexity to adapt to devices with different resource
constraints. This multi-stage clustering strategy is critical for streaming
on-device speaker diarization systems, where the budgets of CPU, memory and
battery are tight.
- Abstract(参考訳): 近年の話者ダイアリゼーションの研究は、ダイアリゼーション結果の質向上に重点を置いているが、ダイアリゼーションシステムの効率向上にも関心が高まっている。
本稿では、異なる長さの入力に異なるクラスタリングアルゴリズムを使用する多段階クラスタリング戦略が、デバイス上での話者ダイアリゼーションアプリケーションの多面的課題に対処できることを実証する。
具体的には、フォールバッククラスタが短文入力の処理に使用され、メインクラスタが中文入力の処理に使用され、プリクラスタがメインクラスタが処理する前に長文入力の圧縮に使用される。
メインのクラスタとプリクラスタの両方を計算複雑性の上限で設定して、リソース制約の異なるデバイスに適応させることができる。
このマルチステージクラスタリング戦略は、cpu、メモリ、バッテリの予算が厳しい、デバイス上の話者ダイアリゼーションシステムをストリーミングする上で極めて重要である。
関連論文リスト
- A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Fast and Interpretable Consensus Clustering via Minipatch Learning [0.0]
IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering を開発した。
我々は、信頼性と計算コストの両面で改善された観測のための適応型サンプリング手法を開発した。
その結果,より正確で解釈可能なクラスタソリューションが得られた。
論文 参考訳(メタデータ) (2021-10-05T22:39:28Z) - Augmented Data as an Auxiliary Plug-in Towards Categorization of
Crowdsourced Heritage Data [2.609784101826762]
本稿では,データ拡張を補助プラグインとして導入することで,非効率なクラスタリング性能の問題を緩和する戦略を提案する。
我々は、深層クラスタリングのための新しいモデルとして初期特徴空間を構築するために、拡張データを用いた畳み込みオートエンコーダ(CAE)の変種を訓練する。
論文 参考訳(メタデータ) (2021-07-08T14:09:39Z) - Unsupervised Clustered Federated Learning in Complex Multi-source
Acoustic Environments [75.8001929811943]
現実的で挑戦的なマルチソース・マルチルーム音響環境を導入する。
本稿では,音響シーンの変動を考慮したクラスタリング制御手法を提案する。
提案手法はクラスタリングに基づく測度を用いて最適化され,ネットワークワイド分類タスクによって検証される。
論文 参考訳(メタデータ) (2021-06-07T14:51:39Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - A Robust Speaker Clustering Method Based on Discrete Tied Variational
Autoencoder [27.211505187332385]
集約階層クラスタ(AHC)に基づく従来の話者クラスタリング手法は、長時間実行の欠点があり、環境騒音に敏感である。
本稿では,相互情報(MI)に基づく新しい話者クラスタリング手法と,雑音に対するロバスト性を高めるためにタイド変分オートエンコーダ(TVAE)の啓蒙の下で,離散変数を持つ非線形モデルを提案する。
論文 参考訳(メタデータ) (2020-03-04T08:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。