Fugu-MT 論文翻訳(概要): Diarisation using Location tracking with agglomerative clustering

論文の概要: Diarisation using Location tracking with agglomerative clustering

arxiv url: http://arxiv.org/abs/2109.10598v1
Date: Wed, 22 Sep 2021 08:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-23 13:52:20.880017
Title: Diarisation using Location tracking with agglomerative clustering
Title（参考訳）: アグリメティブクラスタリングを用いた位置追跡による弁別
Authors: Jeremy H. M. Wong, Igor Abramovski, Xiong Xiao, and Yifan Gong
Abstract要約: 本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
参考スコア（独自算出の注目度）: 42.13772744221499
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Previous works have shown that spatial location information can be complementary to speaker embeddings for a speaker diarisation task. However, the models used often assume that speakers are fairly stationary throughout a meeting. This paper proposes to relax this assumption, by explicitly modelling the movements of speakers within an Agglomerative Hierarchical Clustering (AHC) diarisation framework. Kalman filters, which track the locations of speakers, are used to compute log-likelihood ratios that contribute to the cluster affinity computations for the AHC merging and stopping decisions. Experiments show that the proposed approach is able to yield improvements on a Microsoft rich meeting transcription task, compared to methods that do not use location information or that make stationarity assumptions.
Abstract（参考訳）: 従来の研究では、空間的位置情報は話者ダイアリゼーションタスクのための話者埋め込みと相補的であることが示されている。しかし、しばしば使われるモデルは、話し手が会議を通じてかなり静止していると仮定する。本稿では,agglomerative hierarchical clustering (ahc)ダイアリゼーションフレームワーク内の話者の動きを明示的にモデル化することにより,この仮定を緩和する。話者の位置を追跡するKalmanフィルタは、AHCマージと停止決定のためのクラスタ親和性計算に寄与するログライクな比率を計算するために使用される。実験により、提案手法はマイクロソフトのリッチミーティングの転写タスクにおいて、位置情報を使用しない手法や定常性を仮定した手法と比較して改善できることを示した。

関連論文リスト

Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文参考訳（メタデータ） (2025-06-23T13:02:20Z)
Hypothesis Clustering and Merging: Novel MultiTalker Speech Recognition with Speaker Tokens [45.161909551392085]
本稿では,話者クラスタリングにより得られた話者クラストークンを付加した新しいアテンションベースのエンコーダデコーダ手法を提案する。推論中、予測された話者クラスタトークンに条件付き複数の認識仮説を選択する。これらの仮説は、正規化された編集距離に基づいて集約的な階層的クラスタリングによってマージされる。
論文参考訳（メタデータ） (2024-09-24T04:31:46Z)
Tight integration of neural- and clustering-based diarization through deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文参考訳（メタデータ） (2022-02-14T07:45:21Z)
Joint speaker diarisation and tracking in switching state-space model [51.58295550366401]
本稿では,統合モデル内で共同でダイアリゼーションを行いながら,話者の動きを明示的に追跡することを提案する。隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。 Microsoftリッチミーティングの書き起こしタスクの実験は、提案された共同位置追跡とダイアリゼーションアプローチが、位置情報を使用する他の方法と相容れない性能を発揮することを示している。
論文参考訳（メタデータ） (2021-09-23T04:43:58Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文参考訳（メタデータ） (2020-12-18T05:31:07Z)
Speaker diarization with session-level speaker embedding refinement using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文参考訳（メタデータ） (2020-05-22T19:52:51Z)
Probabilistic embeddings for speaker diarization [13.276960253126656]
非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
論文参考訳（メタデータ） (2020-04-06T14:51:01Z)
Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文参考訳（メタデータ） (2020-04-06T06:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。