論文の概要: Multi-scale speaker embedding-based graph attention networks for speaker
diarisation
- arxiv url: http://arxiv.org/abs/2110.03361v1
- Date: Thu, 7 Oct 2021 11:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 15:22:04.760554
- Title: Multi-scale speaker embedding-based graph attention networks for speaker
diarisation
- Title(参考訳): 話者ダイアリゼーションのためのマルチスケール話者埋め込み型グラフアテンションネットワーク
- Authors: Youngki Kwon, Hee-Soo Heo, Jee-weon Jung, You Jin Kim, Bong-Jin Lee,
Joon Son Chung
- Abstract要約: マルチスケール話者ダイアリゼーションのためのグラフアテンションネットワークを提案する。
各埋め込みのスケール情報を利用するためのスケールインジケータを設計する。
我々は,アテンションに基づくアグリゲーションを適用し,マルチスケール埋め込みから事前計算されたアフィニティ行列を利用する。
- 参考スコア(独自算出の注目度): 30.383712356205084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is effective speaker diarisation using multi-scale
speaker embeddings. Typically, there is a trade-off between the ability to
recognise short speaker segments and the discriminative power of the embedding,
according to the segment length used for embedding extraction. To this end,
recent works have proposed the use of multi-scale embeddings where segments
with varying lengths are used. However, the scores are combined using a
weighted summation scheme where the weights are fixed after the training phase,
whereas the importance of segment lengths can differ with in a single session.
To address this issue, we present three key contributions in this paper: (1) we
propose graph attention networks for multi-scale speaker diarisation; (2) we
design scale indicators to utilise scale information of each embedding; (3) we
adapt the attention-based aggregation to utilise a pre-computed affinity matrix
from multi-scale embeddings. We demonstrate the effectiveness of our method in
various datasets where the speaker confusion which constitutes the primary
metric drops over 10% in average relative compared to the baseline.
- Abstract(参考訳): 本研究の目的は,マルチスケール話者埋め込みを用いた効果的な話者ダイアリゼーションである。
典型的には、埋め込み抽出に用いられるセグメント長に応じて、短い話者セグメントを認識する能力と埋め込みの識別能力との間にはトレードオフがある。
この目的のために、近年の研究では、長さの異なるセグメントが使用されるマルチスケール組込みの利用が提案されている。
しかしながら、スコアはトレーニングフェーズ後に重み付けが固定される重み付け和法を用いて合成されるが、セグメント長の重要性は単一のセッションで異なる可能性がある。
本稿では,(1)多人数話者ダイアリゼーションのためのグラフアテンションネットワークを提案する,(2)各組込みのスケール情報を利用するスケールインジケータを設計する,(3)多人数組込みから予め計算されたアフィニティマトリックスを利用するために注意に基づくアグリゲーションを適用する,という3つの重要な貢献について述べる。
本手法の有効性を,基本指標を構成する話者の混乱が,ベースラインと比較して平均10%以上低下する様々なデータセットで示す。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Graph Attention Networks for Speaker Verification [43.01058120303278]
本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
論文 参考訳(メタデータ) (2020-10-22T09:08:02Z) - Speaker diarization with session-level speaker embedding refinement
using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2020-05-22T19:52:51Z) - Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification [37.33388614967888]
弱ラベル付き話者識別問題を解くために階層的注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
論文 参考訳(メタデータ) (2020-05-15T22:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。