論文の概要: T-vectors: Weakly Supervised Speaker Identification Using Hierarchical
Transformer Model
- arxiv url: http://arxiv.org/abs/2010.16071v1
- Date: Thu, 29 Oct 2020 09:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:26:49.709493
- Title: T-vectors: Weakly Supervised Speaker Identification Using Hierarchical
Transformer Model
- Title(参考訳): Tベクトル:階層型変圧器モデルを用いた弱教師付き話者識別
- Authors: Yanpei Shi, Mingjie Chen, Qiang Huang, Thomas Hain
- Abstract要約: 本稿では,変換器エンコーダとメモリ機構を備えた階層型ネットワークを提案し,この問題に対処する。
提案モデルにはフレームレベルエンコーダとセグメントレベルエンコーダが含まれており,どちらもトランスフォーマーエンコーダブロックを使用している。
- 参考スコア(独自算出の注目度): 36.372432408617584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying multiple speakers without knowing where a speaker's voice is in a
recording is a challenging task. This paper proposes a hierarchical network
with transformer encoders and memory mechanism to address this problem. The
proposed model contains a frame-level encoder and segment-level encoder, both
of them make use of the transformer encoder block. The multi-head attention
mechanism in the transformer structure could better capture different speaker
properties when the input utterance contains multiple speakers. The memory
mechanism used in the frame-level encoders can build a recurrent connection
that better capture long-term speaker features. The experiments are conducted
on artificial datasets based on the Switchboard Cellular part1 (SWBC) and
Voxceleb1 datasets. In different data construction scenarios (Concat and
Overlap), the proposed model shows better performance comparaing with four
strong baselines, reaching 13.3% and 10.5% relative improvement compared with
H-vectors and S-vectors. The use of memory mechanism could reach 10.6% and 7.7%
relative improvement compared with not using memory mechanism.
- Abstract(参考訳): 録音中の話者の声がどこにあるかを知らずに複数の話者を特定することは難しい課題である。
本稿では,変換器エンコーダとメモリ機構を備えた階層型ネットワークを提案する。
提案モデルにはフレームレベルエンコーダとセグメントレベルエンコーダが含まれており,どちらもトランスフォーマーエンコーダブロックを使用している。
変換器構造におけるマルチヘッドアテンション機構は、入力発話が複数の話者を含む場合、話者特性をよりよく捉えることができる。
フレームレベルのエンコーダで使用されるメモリ機構は、長期的な話者機能をよりよくキャプチャするリカレント接続を構築することができる。
実験は、Switchboard Cellular part1(SWBC)とVoxceleb1データセットに基づく人工データセットで実施される。
さまざまなデータ構築シナリオ (Concat と Overlap) において、提案されたモデルは、4つの強いベースラインとのより良いパフォーマンス比較を示し、H-ベクターやS-ベクターと比較して13.3%と10.5%の改善を達成した。
メモリ機構の使用は、メモリ機構を使用しない場合と比較して10.6%と7.7%の改善に達する可能性がある。
関連論文リスト
- How Redundant Is the Transformer Stack in Speech Representation Models? [1.3873323883842132]
自己教師付き音声表現モデルは、音声認識、話者識別、感情検出など様々なタスクにおいて顕著な性能を示した。
近年, 変圧器モデルの研究により, 層間に高い冗長性と, 重要な刈り取りの可能性が確認されている。
後処理を必要とせず,変換器を用いた音声表現モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-10T11:00:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。