論文の概要: Graph Attention Networks for Speaker Verification
- arxiv url: http://arxiv.org/abs/2010.11543v2
- Date: Mon, 8 Feb 2021 08:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:44:31.934215
- Title: Graph Attention Networks for Speaker Verification
- Title(参考訳): 話者照合のためのグラフ注意ネットワーク
- Authors: Jee-weon Jung, Hee-Soo Heo, Ha-Jin Yu, Joon Son Chung
- Abstract要約: 本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
- 参考スコア(独自算出の注目度): 43.01058120303278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a novel back-end framework for speaker verification using
graph attention networks. Segment-wise speaker embeddings extracted from
multiple crops within an utterance are interpreted as node representations of a
graph. The proposed framework inputs segment-wise speaker embeddings from an
enrollment and a test utterance and directly outputs a similarity score. We
first construct a graph using segment-wise speaker embeddings and then input
these to graph attention networks. After a few graph attention layers with
residual connections, each node is projected into a one-dimensional space using
affine transform, followed by a readout operation resulting in a scalar
similarity score. To enable successful adaptation for speaker verification, we
propose techniques such as separating trainable weights for attention map
calculations between segment-wise speaker embeddings from different utterances.
The effectiveness of the proposed framework is validated using three different
speaker embedding extractors trained with different architectures and objective
functions. Experimental results demonstrate consistent improvement over various
baseline back-end classifiers, with an average equal error rate improvement of
20% over the cosine similarity back-end without test time augmentation.
- Abstract(参考訳): 本稿では,グラフアテンションネットワークを用いた話者照合のための新しいバックエンドフレームワークを提案する。
複数の作物から抽出したセグメントワイド話者埋め込みをグラフのノード表現として解釈する。
提案するフレームワークは、入力とテスト発話からセグメント毎の話者埋め込みを入力し、類似度スコアを直接出力する。
まず,セグメント毎の話者埋め込みを用いたグラフを構築し,それらをグラフアテンションネットワークに入力する。
残差接続を持ついくつかのグラフ注意層の後、各ノードはアフィン変換を用いて1次元空間に投影され、読み出し操作によりスカラー類似度スコアとなる。
話者検証のための適応を成功させるために、異なる発話からのセグメントワイド話者埋め込み間の注意マップ計算のためのトレーニング可能な重みを分離する手法を提案する。
提案手法の有効性を,異なるアーキテクチャと目的関数で学習した3種類の話者埋め込み抽出器を用いて検証した。
実験の結果、様々なベースラインバックエンドの分類器に対して一貫した改善が示され、テスト時間の増加を伴わずに、コサイン類似性バックエンドのエラーレートが平均20%向上した。
関連論文リスト
- SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Graph-based Label Propagation for Semi-Supervised Speaker Identification [10.87690067963342]
家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
論文 参考訳(メタデータ) (2021-06-15T15:10:33Z) - Speaker attribution with voice profiles by graph-based semi-supervised
learning [29.042995008709916]
本稿では,グラフに基づく半教師付き学習手法を用いて話者帰属問題の解法を提案する。
セッション毎に音声セグメントのグラフを構築し、音声プロファイルからのセグメントをラベル付きノードで表現し、テスト発話からのセグメントをラベルなしノードとする。
話者属性はグラフ上の半教師付き学習問題となり、グラフベースの2つの手法が適用される:ラベル伝搬(LP)とグラフニューラルネットワーク(GNN)。
論文 参考訳(メタデータ) (2021-02-06T18:35:56Z) - Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification [37.33388614967888]
弱ラベル付き話者識別問題を解くために階層的注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
論文 参考訳(メタデータ) (2020-05-15T22:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。