論文の概要: Graph-based Label Propagation for Semi-Supervised Speaker Identification
- arxiv url: http://arxiv.org/abs/2106.08207v1
- Date: Tue, 15 Jun 2021 15:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:23:23.192955
- Title: Graph-based Label Propagation for Semi-Supervised Speaker Identification
- Title(参考訳): 半教師付き話者識別のためのグラフベースラベル伝搬
- Authors: Long Chen, Venkatesh Ravichandran, Andreas Stolcke
- Abstract要約: 家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
- 参考スコア(独自算出の注目度): 10.87690067963342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker identification in the household scenario (e.g., for smart speakers)
is typically based on only a few enrollment utterances but a much larger set of
unlabeled data, suggesting semisupervised learning to improve speaker profiles.
We propose a graph-based semi-supervised learning approach for speaker
identification in the household scenario, to leverage the unlabeled speech
samples. In contrast to most of the works in speaker recognition that focus on
speaker-discriminative embeddings, this work focuses on speaker label inference
(scoring). Given a pre-trained embedding extractor, graph-based learning allows
us to integrate information about both labeled and unlabeled utterances.
Considering each utterance as a graph node, we represent pairwise utterance
similarity scores as edge weights. Graphs are constructed per household, and
speaker identities are propagated to unlabeled nodes to optimize a global
consistency criterion. We show in experiments on the VoxCeleb dataset that this
approach makes effective use of unlabeled data and improves speaker
identification accuracy compared to two state-of-the-art scoring methods as
well as their semi-supervised variants based on pseudo-labels.
- Abstract(参考訳): 家庭のシナリオ(例えばスマートスピーカー)における話者識別は、典型的にはわずかに登録された発話に基づいているが、ラベルなしデータのより大きなセットに基づいている。
本研究では,家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
話者識別埋め込みに焦点を当てた話者認識におけるほとんどの作業とは対照的に、本研究は話者ラベル推論(scoring)に焦点を当てている。
事前学習した埋め込み抽出器により、グラフベースの学習により、ラベル付きおよびラベルなし両方の発話に関する情報を統合できる。
それぞれの発話をグラフノードとして考慮し,対関係の発話類似度スコアをエッジウェイトとして表現する。
グラフは家庭ごとに構築され、話者アイデンティティはグローバルな一貫性基準を最適化するためにラベルのないノードに伝播される。
我々は,VoxCelebデータセット上で実験を行い,この手法が未ラベルデータを有効に活用し,擬似ラベルに基づく半教師付き変種と2つの最先端評価手法と比較して話者識別精度を向上させることを示した。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Learning Semantic Correspondence with Sparse Annotations [66.37298464505261]
密接な意味的対応を見つけることは、コンピュータビジョンの基本的な問題である。
本研究では,高密度な擬似ラベルを生成するための教師学習パラダイムを提案する。
また、擬似ラベルを識別するための2つの新しい戦略も開発している。
論文 参考訳(メタデータ) (2022-08-15T02:24:18Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Speaker attribution with voice profiles by graph-based semi-supervised
learning [29.042995008709916]
本稿では,グラフに基づく半教師付き学習手法を用いて話者帰属問題の解法を提案する。
セッション毎に音声セグメントのグラフを構築し、音声プロファイルからのセグメントをラベル付きノードで表現し、テスト発話からのセグメントをラベルなしノードとする。
話者属性はグラフ上の半教師付き学習問題となり、グラフベースの2つの手法が適用される:ラベル伝搬(LP)とグラフニューラルネットワーク(GNN)。
論文 参考訳(メタデータ) (2021-02-06T18:35:56Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Graph Attention Networks for Speaker Verification [43.01058120303278]
本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
論文 参考訳(メタデータ) (2020-10-22T09:08:02Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。