論文の概要: High-resolution embedding extractor for speaker diarisation
- arxiv url: http://arxiv.org/abs/2211.04060v1
- Date: Tue, 8 Nov 2022 07:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:05:46.005166
- Title: High-resolution embedding extractor for speaker diarisation
- Title(参考訳): 話者ダイアリゼーションのための高分解能埋め込み抽出器
- Authors: Hee-Soo Heo, Youngki Kwon, Bong-Jin Lee, You Jin Kim, Jee-weon Jung
- Abstract要約: 本研究では,高分解能埋込抽出器(HEE)と呼ばれる新しい埋込抽出器アーキテクチャを提案する。
HEEは機能マップ抽出器とエンハンサーで構成されており、自己認識機構を備えたエンハンサーが成功の鍵となる。
4つの公開データセットを含む5つの評価セットの実験を通じて、提案したHEEは、各評価セットに対して少なくとも10%の改善を示す。
- 参考スコア(独自算出の注目度): 15.392429990363492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker embedding extractors significantly influence the performance of
clustering-based speaker diarisation systems. Conventionally, only one
embedding is extracted from each speech segment. However, because of the
sliding window approach, a segment easily includes two or more speakers owing
to speaker change points. This study proposes a novel embedding extractor
architecture, referred to as a high-resolution embedding extractor (HEE), which
extracts multiple high-resolution embeddings from each speech segment. Hee
consists of a feature-map extractor and an enhancer, where the enhancer with
the self-attention mechanism is the key to success. The enhancer of HEE
replaces the aggregation process; instead of a global pooling layer, the
enhancer combines relative information to each frame via attention leveraging
the global context. Extracted dense frame-level embeddings can each represent a
speaker. Thus, multiple speakers can be represented by different frame-level
features in each segment. We also propose an artificially generating mixture
data training framework to train the proposed HEE. Through experiments on five
evaluation sets, including four public datasets, the proposed HEE demonstrates
at least 10% improvement on each evaluation set, except for one dataset, which
we analyse that rapid speaker changes less exist.
- Abstract(参考訳): 話者埋め込み抽出器はクラスタリングに基づく話者ダイアリゼーションシステムの性能に大きく影響する。
従来、各音声セグメントから1つの埋め込みのみを抽出する。
しかし、スライディングウインドウのアプローチにより、セグメンテーションは2つ以上の話者を含むことが容易にできる。
本研究では,各音声セグメントから複数の高分解能埋め込みを抽出する,高分解能埋め込み抽出器(HEE)と呼ばれる新しい埋め込み抽出器アーキテクチャを提案する。
heeは機能マップ抽出器とエンハンサーで構成されており、セルフアテンション機構を備えたエンハンサーが成功の鍵となる。
HEEのエンハンサーは集約プロセスを置き換え、グローバルプール層の代わりに、グローバルコンテキストを活用することで、各フレームに対する相対情報を結合する。
抽出されたフレームレベルの埋め込みは、それぞれ話者を表すことができる。
したがって、複数の話者を各セグメントの異なるフレームレベルの特徴で表現することができる。
また,提案したHEEを学習するための混合データトレーニングフレームワークを提案する。
4つの公開データセットを含む5つの評価セットに関する実験を通じて、提案するheeは1つのデータセットを除いて、各評価セットに対して少なくとも10%の改善を示す。
関連論文リスト
- Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification [37.33388614967888]
弱ラベル付き話者識別問題を解くために階層的注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
論文 参考訳(メタデータ) (2020-05-15T22:57:53Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。