論文の概要: End-to-End Trainable Self-Attentive Shallow Network for Text-Independent
Speaker Verification
- arxiv url: http://arxiv.org/abs/2008.06146v1
- Date: Fri, 14 Aug 2020 00:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:47:28.797752
- Title: End-to-End Trainable Self-Attentive Shallow Network for Text-Independent
Speaker Verification
- Title(参考訳): テキスト独立話者検証のためのエンドツーエンド学習型自己認識型浅層ネットワーク
- Authors: Hyeonmook Park, Jungbae Park, Sang Wan Lee
- Abstract要約: 汎用エンド・ツー・エンド(GE2E)モデルは話者検証(SV)分野で広く利用されている。
SV, エンドツーエンドの訓練可能浅層ネットワーク(SASN)のための新しいフレームワークを提案する。
提案モデルは非常に効率的で,GE2Eよりも高精度な話者検証が可能であることを示す。
- 参考スコア(独自算出の注目度): 9.550238260901121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized end-to-end (GE2E) model is widely used in speaker verification
(SV) fields due to its expandability and generality regardless of specific
languages. However, the long-short term memory (LSTM) based on GE2E has two
limitations: First, the embedding of GE2E suffers from vanishing gradient,
which leads to performance degradation for very long input sequences. Secondly,
utterances are not represented as a properly fixed dimensional vector. In this
paper, to overcome issues mentioned above, we propose a novel framework for SV,
end-to-end trainable self-attentive shallow network (SASN), incorporating a
time-delay neural network (TDNN) and a self-attentive pooling mechanism based
on the self-attentive x-vector system during an utterance embedding phase. We
demonstrate that the proposed model is highly efficient, and provides more
accurate speaker verification than GE2E. For VCTK dataset, with just less than
half the size of GE2E, the proposed model showed significant performance
improvement over GE2E of about 63%, 67%, and 85% in EER (Equal error rate), DCF
(Detection cost function), and AUC (Area under the curve), respectively.
Notably, when the input length becomes longer, the DCF score improvement of the
proposed model is about 17 times greater than that of GE2E.
- Abstract(参考訳): 汎用エンド・ツー・エンド(GE2E)モデルは、特定の言語によらず拡張性と一般化性のため、話者検証(SV)分野で広く利用されている。
しかし、GE2Eに基づく長期記憶(LSTM)には2つの制限がある。
第二に、発話は適切な固定次元ベクトルとして表現されない。
本稿では,この課題を克服するために,発話埋め込みフェーズにおいて,自己注意型xベクトルシステムに基づく時間遅延ニューラルネットワーク(TDNN)と自己注意型プール機構を組み込んだ,終末から終末までの訓練可能な浅層ネットワーク(SASN)の新たなフレームワークを提案する。
提案モデルは非常に効率的で,GE2Eよりも精度の高い話者検証を提供する。
VCTKデータセットでは,GE2Eの約63%,67%,EERの85%,DCF(検出コスト関数),AUC(曲線下Area)に対して,GE2Eの約半分以下で大きな性能向上を示した。
特に、入力長が長くなると、提案したモデルのDCFスコアはGE2Eの約17倍になる。
関連論文リスト
- EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z) - WinNet: Make Only One Convolutional Layer Effective for Time Series Forecasting [11.232780368635416]
我々は、WinNetと呼ばれる1つの畳み込み層しか持たない非常に正確で単純なCNNベースのモデルを提案する。
その結果、WinNetは、CNNベースのメソッドよりもSOTA性能と複雑さが低いことを実証した。
論文 参考訳(メタデータ) (2023-11-01T01:23:59Z) - DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter
for Speaker Verification [3.0831477850153224]
本稿では,グローバル・アウェア・フィルタ・レイヤ(GF層)と呼ばれる新しいモジュールについて紹介する。
本稿では、自動話者検証(ASV)のためのDS-TDNNと呼ばれるデュアルストリームTDNNアーキテクチャを提案する。
VoxcelebとSITWデータベースの実験は、DS-TDNNが相対的に10%改善し、相対的に計算コストが20%低下したことを示している。
論文 参考訳(メタデータ) (2023-03-20T10:58:12Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Internal Language Model Adaptation with Text-Only Data for End-to-End
Speech Recognition [80.32546870220979]
テキストのみのデータを用いたE2Eモデルの内部LM適応(ILMA)を提案する。
ILMAは、実行時の計算コストを増大させることなく、E2Eモデルの高速テキストのみの適応を可能にする。
30K時間トレーニングされたトランスデューサモデルを用いて実験した結果、ILMAは最大34.9%の単語誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-10-06T23:03:29Z) - Causal Incremental Graph Convolution for Recommender System Retraining [89.25922726558875]
実世界のレコメンデーションシステムは、新しいデータを維持するために定期的に再トレーニングする必要がある。
本研究では,GCNに基づくレコメンデータモデルを用いて,グラフ畳み込みネットワーク(GCN)を効率的に再学習する方法を検討する。
論文 参考訳(メタデータ) (2021-08-16T04:20:09Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - Systolic Tensor Array: An Efficient Structured-Sparse GEMM Accelerator
for Mobile CNN Inference [16.812184391068786]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、効率的なハードウェアアクセラレーションを必要とする。
systolic array (SA)は、処理要素(PE)のパイプライン化された2D配列である
CNN推論を特に最適化するために,従来のSAアーキテクチャの2つの重要な改善点について述べる。
論文 参考訳(メタデータ) (2020-05-16T20:47:56Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。