論文の概要: Self-attention encoding and pooling for speaker recognition
- arxiv url: http://arxiv.org/abs/2008.01077v1
- Date: Mon, 3 Aug 2020 09:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 07:23:04.896015
- Title: Self-attention encoding and pooling for speaker recognition
- Title(参考訳): 話者認識のための自己注意符号化とプーリング
- Authors: Pooyan Safari, Miquel India and Javier Hernando
- Abstract要約: 本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
- 参考スコア(独自算出の注目度): 16.96341561111918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computing power of mobile devices limits the end-user applications in
terms of storage size, processing, memory and energy consumption. These
limitations motivate researchers for the design of more efficient deep models.
On the other hand, self-attention networks based on Transformer architecture
have attracted remarkable interests due to their high parallelization
capabilities and strong performance on a variety of Natural Language Processing
(NLP) applications. Inspired by the Transformer, we propose a tandem
Self-Attention Encoding and Pooling (SAEP) mechanism to obtain a discriminative
speaker embedding given non-fixed length speech utterances. SAEP is a stack of
identical blocks solely relied on self-attention and position-wise feed-forward
networks to create vector representation of speakers. This approach encodes
short-term speaker spectral features into speaker embeddings to be used in
text-independent speaker verification. We have evaluated this approach on both
VoxCeleb1 & 2 datasets. The proposed architecture is able to outperform the
baseline x-vector, and shows competitive performance to some other benchmarks
based on convolutions, with a significant reduction in model size. It employs
94%, 95%, and 73% less parameters compared to ResNet-34, ResNet-50, and
x-vector, respectively. This indicates that the proposed fully attention based
architecture is more efficient in extracting time-invariant features from
speaker utterances.
- Abstract(参考訳): モバイルデバイスの計算能力は、ストレージサイズ、処理量、メモリおよびエネルギー消費の点でエンドユーザーアプリケーションを制限する。
これらの限界は、より効率的な深層モデルの設計を研究者に動機付ける。
一方,Transformerアーキテクチャに基づく自己注意ネットワークは,高い並列化能力と,さまざまな自然言語処理(NLP)アプリケーションの性能向上により,目覚ましい関心を集めている。
トランスフォーマーにインスパイアされ,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己注意符号化(SAEP)機構を提案する。
SAEPは、話者のベクトル表現を作成するために、自己意図と位置指向のフィードフォワードネットワークにのみ依存する同一ブロックのスタックである。
このアプローチは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴をエンコードする。
このアプローチをVoxCeleb1と2のデータセットで評価した。
提案したアーキテクチャは、ベースラインのxベクターよりも優れており、モデルサイズの大幅な削減とともに、畳み込みに基づく他のベンチマークと競合する性能を示す。
ResNet-34、ResNet-50、x-vectorと比較すると、94%、95%、および73%のパラメータが採用されている。
提案手法は話者発話から時間不変な特徴を抽出するのに有効であることを示す。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - A Hierarchical Transformer with Speaker Modeling for Emotion Recognition
in Conversation [12.065178204539693]
Emotion Recognition in Conversation(ERC)は、パーソナライズされたインタラクティブな感情認識タスクです。
現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。
複雑なモデリングをバイナリバージョン – スピーカー内依存関係とスピーカー間依存関係 – に簡略化します。
論文 参考訳(メタデータ) (2020-12-29T14:47:35Z) - T-vectors: Weakly Supervised Speaker Identification Using Hierarchical
Transformer Model [36.372432408617584]
本稿では,変換器エンコーダとメモリ機構を備えた階層型ネットワークを提案し,この問題に対処する。
提案モデルにはフレームレベルエンコーダとセグメントレベルエンコーダが含まれており,どちらもトランスフォーマーエンコーダブロックを使用している。
論文 参考訳(メタデータ) (2020-10-29T09:38:17Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。