論文の概要: Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA
Clustering of DNN Embeddings
- arxiv url: http://arxiv.org/abs/2104.02469v2
- Date: Wed, 7 Apr 2021 01:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:07:44.365525
- Title: Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA
Clustering of DNN Embeddings
- Title(参考訳): dnn埋め込みの2パスレフトワンアウトガウス型pldaクラスタリングによる話者ダイアリゼーション
- Authors: Kiran Karra, Alan McCree
- Abstract要約: 本稿では,クラスタリングと埋め込みを用いた話者ダイアリゼーションのためのシステムの2パスバージョンを提案する。
コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4%以下で達成する。
また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。
- 参考スコア(独自算出の注目度): 9.826793576487736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern systems for speaker diarization, such as the recently-developed
VBx approach, rely on clustering of DNN speaker embeddings followed by
resegmentation. Two problems with this approach are that the DNN is not
directly optimized for this task, and the parameters need significant retuning
for different applications. We have recently presented progress in this
direction with a Leave-One-Out Gaussian PLDA (LGP) clustering algorithm and an
approach to training the DNN such that embeddings directly optimize performance
of this scoring method. This paper presents a new two-pass version of this
system, where the second pass uses finer time resolution to significantly
improve overall performance. For the Callhome corpus, we achieve the first
published error rate below 4\% without any task-dependent parameter tuning. We
also show significant progress towards a robust single solution for multiple
diarization tasks.
- Abstract(参考訳): 最近開発されたvbxアプローチのような、話者ダイアリゼーションのための多くの現代的なシステムは、dnnスピーカー埋め込みのクラスタリングと再セグメンテーションに依存している。
このアプローチの2つの問題は、dnnがこのタスクに直接最適化されていないことと、パラメータが異なるアプリケーションに対して大幅に調整する必要があることである。
我々は最近,lgpクラスタリングアルゴリズムと,このスコアリング法の性能を直接最適化するdnnのトレーニング手法を用いて,この方向の進展を示した。
本稿では,この方式の2パスバージョンを新たに提案し,第2パスはより微細な時間分解能を用いて全体の性能を大幅に向上させる。
コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4\%以下で達成する。
また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。
関連論文リスト
- Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Supervised Hierarchical Clustering using Graph Neural Networks for
Speaker Diarization [41.30830281043803]
話者ダイアリゼーションのためのSupervised HierArchical gRaph Clusteringアルゴリズム(SHARC)を提案する。
本稿では,グラフニューラルネットワーク(GNN)を用いた階層構造を導入し,クラスタリングを行う。
教師付きクラスタリングは、ノード密度とエッジ存在確率を用いて、収束するまでセグメントをマージする。
論文 参考訳(メタデータ) (2023-02-24T16:16:41Z) - Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z) - Towards Lossless ANN-SNN Conversion under Ultra-Low Latency with Dual-Phase Optimization [30.098268054714048]
非同期離散イベントで動作するスパイキングニューラルネットワーク(SNN)は、スパース計算によるエネルギー効率の向上を示す。
ディープSNNを実装するための一般的なアプローチは、ANNの効率的なトレーニングとSNNの効率的な推論を組み合わせたANN-SNN変換である。
本稿では,SNNにおける負または過フロー残留膜電位の誤表現に起因する性能劣化を最初に同定する。
そこで我々は,変換誤差を量子化誤差,クリッピング誤差,残留膜電位表現誤差の3つの部分に分解した。
論文 参考訳(メタデータ) (2022-05-16T06:53:14Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。