論文の概要: Speaker diarization with session-level speaker embedding refinement
using graph neural networks
- arxiv url: http://arxiv.org/abs/2005.11371v1
- Date: Fri, 22 May 2020 19:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:48:13.261115
- Title: Speaker diarization with session-level speaker embedding refinement
using graph neural networks
- Title(参考訳): グラフニューラルネットワークを用いたセッションレベル話者埋め込み改良による話者ダイアリゼーション
- Authors: Jixuan Wang, Xiong Xiao, Jian Wu, Ranjani Ramamurthy, Frank Rudzicz,
Michael Brudno
- Abstract要約: 話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
- 参考スコア(独自算出の注目度): 26.688724154619504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep speaker embedding models have been commonly used as a building block for
speaker diarization systems; however, the speaker embedding model is usually
trained according to a global loss defined on the training data, which could be
sub-optimal for distinguishing speakers locally in a specific meeting session.
In this work we present the first use of graph neural networks (GNNs) for the
speaker diarization problem, utilizing a GNN to refine speaker embeddings
locally using the structural information between speech segments inside each
session. The speaker embeddings extracted by a pre-trained model are remapped
into a new embedding space, in which the different speakers within a single
session are better separated. The model is trained for linkage prediction in a
supervised manner by minimizing the difference between the affinity matrix
constructed by the refined embeddings and the ground-truth adjacency matrix.
Spectral clustering is then applied on top of the refined embeddings. We show
that the clustering performance of the refined speaker embeddings outperforms
the original embeddings significantly on both simulated and real meeting data,
and our system achieves the state-of-the-art result on the NIST SRE 2000
CALLHOME database.
- Abstract(参考訳): ディープスピーカー埋め込みモデルは、話者ダイアリゼーションシステムのビルディングブロックとして一般的に使用されているが、通常、話者埋め込みモデルはトレーニングデータに定義されたグローバルな損失に応じて訓練される。
本稿では,gnnを用いて各セッション内の音声セグメント間の構造情報を用いて,話者埋め込みを局所的に洗練する,話者ダイアリゼーション問題に対するグラフニューラルネットワーク(gnns)の初使用例を示す。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された埋め込みにより構築された親和性行列と接地トラス親和性行列との差を最小化することにより,リンク予測を教師付き方式で訓練する。
スペクトルクラスタリングは、洗練された埋め込みの上に適用される。
また,本システムでは,NIST SRE 2000 CALLHOMEデータベース上で,話者埋め込みのクラスタリング性能が,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていることを示す。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。