論文の概要: Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification
- arxiv url: http://arxiv.org/abs/2005.07817v3
- Date: Thu, 27 Aug 2020 07:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:27:27.100101
- Title: Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification
- Title(参考訳): 話者識別のための階層型注意ネットワークの弱監視訓練
- Authors: Yanpei Shi, Qiang Huang, Thomas Hain
- Abstract要約: 弱ラベル付き話者識別問題を解くために階層的注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
- 参考スコア(独自算出の注目度): 37.33388614967888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying multiple speakers without knowing where a speaker's voice is in a
recording is a challenging task. In this paper, a hierarchical attention
network is proposed to solve a weakly labelled speaker identification problem.
The use of a hierarchical structure, consisting of a frame-level encoder and a
segment-level encoder, aims to learn speaker related information locally and
globally. Speech streams are segmented into fragments. The frame-level encoder
with attention learns features and highlights the target related frames
locally, and output a fragment based embedding. The segment-level encoder works
with a second attention layer to emphasize the fragments probably related to
target speakers. The global information is finally collected from segment-level
module to predict speakers via a classifier. To evaluate the effectiveness of
the proposed approach, artificial datasets based on Switchboard Cellular part1
(SWBC) and Voxceleb1 are constructed in two conditions, where speakers' voices
are overlapped and not overlapped. Comparing to two baselines the obtained
results show that the proposed approach can achieve better performances.
Moreover, further experiments are conducted to evaluate the impact of utterance
segmentation. The results show that a reasonable segmentation can slightly
improve identification performances.
- Abstract(参考訳): 録音中の話者の声がどこにあるかを知らずに複数の話者を特定することは難しい課題である。
本稿では,弱ラベル付き話者識別問題を解決するために階層型注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
音声ストリームは断片に分割される。
注目のフレームレベルエンコーダは特徴を学習し、対象のフレームを局所的にハイライトし、フラグメントベースの埋め込みを出力する。
セグメントレベルのエンコーダは、第2の注意層と連携して、おそらくターゲットスピーカーに関連する断片を強調する。
グローバル情報は最後にセグメントレベルのモジュールから収集され、分類器を介して話者を予測する。
提案手法の有効性を評価するため,Switchboard Cellular part1(SWBC)とVoxceleb1(Voxceleb1)に基づく人工データセットを2つの条件で構築した。
2つのベースラインと比較すると,提案手法により性能が向上することが示された。
さらに,発話セグメンテーションの影響を評価するため,さらなる実験を行った。
その結果、合理的なセグメンテーションは識別性能をわずかに改善できることがわかった。
関連論文リスト
- Towards the Next Frontier in Speech Representation Learning Using Disentanglement [34.21745744502759]
本稿では,フレームレベルと発話レベルのエンコーダモジュールから構成される音声の拡散自己監督学習(Learning2Diss)のためのフレームワークを提案する。
提案したLearn2Dissは,フレームレベルのエンコーダ表現が意味的タスクを改善する一方で,発話レベルの表現が非意味的なタスクを改善することにより,様々なタスクにおける最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-02T07:13:35Z) - High-resolution embedding extractor for speaker diarisation [15.392429990363492]
本研究では,高分解能埋込抽出器(HEE)と呼ばれる新しい埋込抽出器アーキテクチャを提案する。
HEEは機能マップ抽出器とエンハンサーで構成されており、自己認識機構を備えたエンハンサーが成功の鍵となる。
4つの公開データセットを含む5つの評価セットの実験を通じて、提案したHEEは、各評価セットに対して少なくとも10%の改善を示す。
論文 参考訳(メタデータ) (2022-11-08T07:41:18Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。