論文の概要: Speaker attribution with voice profiles by graph-based semi-supervised
learning
- arxiv url: http://arxiv.org/abs/2102.03634v1
- Date: Sat, 6 Feb 2021 18:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:17:10.424398
- Title: Speaker attribution with voice profiles by graph-based semi-supervised
learning
- Title(参考訳): 半教師付き学習による音声プロファイルを用いた話者帰属
- Authors: Jixuan Wang, Xiong Xiao, Jian Wu, Ranjani Ramamurthy, Frank Rudzicz,
Michael Brudno
- Abstract要約: 本稿では,グラフに基づく半教師付き学習手法を用いて話者帰属問題の解法を提案する。
セッション毎に音声セグメントのグラフを構築し、音声プロファイルからのセグメントをラベル付きノードで表現し、テスト発話からのセグメントをラベルなしノードとする。
話者属性はグラフ上の半教師付き学習問題となり、グラフベースの2つの手法が適用される:ラベル伝搬(LP)とグラフニューラルネットワーク(GNN)。
- 参考スコア(独自算出の注目度): 29.042995008709916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker attribution is required in many real-world applications, such as
meeting transcription, where speaker identity is assigned to each utterance
according to speaker voice profiles. In this paper, we propose to solve the
speaker attribution problem by using graph-based semi-supervised learning
methods. A graph of speech segments is built for each session, on which
segments from voice profiles are represented by labeled nodes while segments
from test utterances are unlabeled nodes. The weight of edges between nodes is
evaluated by the similarities between the pretrained speaker embeddings of
speech segments. Speaker attribution then becomes a semi-supervised learning
problem on graphs, on which two graph-based methods are applied: label
propagation (LP) and graph neural networks (GNNs). The proposed approaches are
able to utilize the structural information of the graph to improve speaker
attribution performance. Experimental results on real meeting data show that
the graph based approaches reduce speaker attribution error by up to 68%
compared to a baseline speaker identification approach that processes each
utterance independently.
- Abstract(参考訳): スピーカーの属性は、スピーカーの音声プロファイルに従って各発話にスピーカーのアイデンティティが割り当てられる会議の転写など、多くの実世界のアプリケーションで必要です。
本稿では,グラフに基づく半教師付き学習手法を用いて話者帰属問題の解法を提案する。
各セッション毎に音声セグメントのグラフを構築し、音声プロファイルからのセグメントをラベル付きノードで表現し、テスト発話からのセグメントをラベル付きノードとする。
ノード間のエッジの重みは、音声セグメントの予め訓練された話者埋め込み間の類似性によって評価される。
話者帰属はグラフ上の半教師付き学習問題となり、ラベル伝搬(lp)とグラフニューラルネットワーク(gnns)の2つのグラフベース手法が適用される。
提案手法は,話者アトリビューション性能を向上させるために,グラフの構造情報を利用することができる。
実会議データを用いた実験結果から,各発話を独立に処理するベースライン話者識別手法と比較して,グラフベースのアプローチは話者帰属誤差を最大68%低減することがわかった。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Graph-based Label Propagation for Semi-Supervised Speaker Identification [10.87690067963342]
家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
論文 参考訳(メタデータ) (2021-06-15T15:10:33Z) - Graph Attention Networks for Speaker Verification [43.01058120303278]
本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
論文 参考訳(メタデータ) (2020-10-22T09:08:02Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。