論文の概要: Self-Attentive Multi-Layer Aggregation with Feature Recalibration and
Normalization for End-to-End Speaker Verification System
- arxiv url: http://arxiv.org/abs/2007.13350v2
- Date: Tue, 28 Jul 2020 07:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 11:45:40.166274
- Title: Self-Attentive Multi-Layer Aggregation with Feature Recalibration and
Normalization for End-to-End Speaker Verification System
- Title(参考訳): 終端話者認証システムにおける特徴校正と正規化を伴う自己注意型多層アグリゲーション
- Authors: Soonshin Seo, Ji-Hwan Kim
- Abstract要約: エンドツーエンド話者認証システムにおいて,特徴の校正と正規化を併用した自己注意型多層アグリゲーションを提案する。
VoxCeleb1評価データセットを用いた実験結果から,提案手法の性能は最先端モデルに匹敵することがわかった。
- 参考スコア(独自算出の注目度): 8.942112181408158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most important parts of an end-to-end speaker verification system
is the speaker embedding generation. In our previous paper, we reported that
shortcut connections-based multi-layer aggregation improves the
representational power of the speaker embedding. However, the number of model
parameters is relatively large and the unspecified variations increase in the
multi-layer aggregation. Therefore, we propose a self-attentive multi-layer
aggregation with feature recalibration and normalization for end-to-end speaker
verification system. To reduce the number of model parameters, the ResNet,
which scaled channel width and layer depth, is used as a baseline. To control
the variability in the training, a self-attention mechanism is applied to
perform the multi-layer aggregation with dropout regularizations and batch
normalizations. Then, a feature recalibration layer is applied to the
aggregated feature using fully-connected layers and nonlinear activation
functions. Deep length normalization is also used on a recalibrated feature in
the end-to-end training process. Experimental results using the VoxCeleb1
evaluation dataset showed that the performance of the proposed methods was
comparable to that of state-of-the-art models (equal error rate of 4.95% and
2.86%, using the VoxCeleb1 and VoxCeleb2 training datasets, respectively).
- Abstract(参考訳): エンドツーエンドの話者検証システムにおいて最も重要な部分の1つは、話者埋め込み生成である。
前報では,接続型多層アグリゲーションが話者埋め込みの表現力を向上させることを報告した。
しかし, モデルパラメータの数は比較的多く, 多層アグリゲーションでは不特定な変動が増加する。
そこで本稿では,エンドツーエンド話者検証システムにおける特徴の校正と正規化を併用した多層アグリゲーションを提案する。
モデルパラメータの数を減らすために、チャネル幅と層深さを拡大したResNetがベースラインとして使用される。
トレーニングにおける可変性を制御するために,ドロップアウト正規化とバッチ正規化を伴う多層アグリゲーションを行う自己注意機構を適用した。
次に、完全連結層と非線形活性化関数を用いて、特徴リカバリ層を集約した特徴量に適用する。
遠距離正規化はエンドツーエンドのトレーニングプロセスで再調整された機能にも使用される。
VoxCeleb1評価データセットを用いた実験の結果、提案手法の性能は最先端のモデルに匹敵することがわかった(それぞれVoxCeleb1とVoxCeleb2のトレーニングデータセットを用いて、エラー率は4.95%と2.86%)。
関連論文リスト
- Rolling bearing fault diagnosis method based on generative adversarial enhanced multi-scale convolutional neural network model [7.600902237804825]
マルチスケール畳み込みニューラルネットワークモデルに基づく転がり軸受故障診断手法を提案する。
ResNet法と比較して,提案手法はより優れた一般化性能と反雑音性能を有することを示す。
論文 参考訳(メタデータ) (2024-03-21T06:42:35Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。