論文の概要: Improving Transformer-based Networks With Locality For Automatic Speaker
Verification
- arxiv url: http://arxiv.org/abs/2302.08639v1
- Date: Fri, 17 Feb 2023 01:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:15:33.475672
- Title: Improving Transformer-based Networks With Locality For Automatic Speaker
Verification
- Title(参考訳): 話者自動検証のための局所性を考慮したトランスフォーマーネットワークの改良
- Authors: Mufan Sang, Yong Zhao, Gang Liu, John H.L. Hansen, Jian Wu
- Abstract要約: 話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 40.06788577864032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based architectures have been explored for speaker
embedding extraction. Although the Transformer employs the self-attention
mechanism to efficiently model the global interaction between token embeddings,
it is inadequate for capturing short-range local context, which is essential
for the accurate extraction of speaker information. In this study, we enhance
the Transformer with the locality modeling in two directions. First, we propose
the Locality-Enhanced Conformer (LE-Confomer) by introducing depth-wise
convolution and channel-wise attention into the Conformer blocks. Second, we
present the Speaker Swin Transformer (SST) by adapting the Swin Transformer,
originally proposed for vision tasks, into speaker embedding network. We
evaluate the proposed approaches on the VoxCeleb datasets and a large-scale
Microsoft internal multilingual (MS-internal) dataset. The proposed models
achieve 0.75% EER on VoxCeleb 1 test set, outperforming the previously proposed
Transformer-based models and CNN-based models, such as ResNet34 and ECAPA-TDNN.
When trained on the MS-internal dataset, the proposed models achieve promising
results with 14.6% relative reduction in EER over the Res2Net50 model.
- Abstract(参考訳): 近年,話者埋め込み抽出のためのトランスフォーマティブアーキテクチャが検討されている。
このトランスは、トークン埋め込み間のグローバルインタラクションを効率的にモデル化するセルフアテンション機構を採用しているが、話者情報の正確な抽出に不可欠な短距離局所コンテキストをキャプチャするには不十分である。
本研究では, 2方向の局所性モデリングにより変圧器を改良する。
まず,コンフォーマーブロックに深さ方向の畳み込みとチャネル方向の注意を導入することにより,局所性エンハンスドコンフォーマー (le-confomer) を提案する。
次に、当初視覚タスク用に提案されていたSwin Transformerを話者埋め込みネットワークに適応させることにより、SST(Swin Transformer)を提案する。
提案するvoxcelebデータセットと大規模microsoft internal multilingual (ms-internal)データセットのアプローチを評価した。
提案したモデルはVoxCeleb 1テストセットで0.75%のEERを達成し、これまで提案されていたTransformerベースのモデルやResNet34やECAPA-TDNNといったCNNベースのモデルよりも優れている。
MS内部データセットでトレーニングすると、提案されたモデルは、Res2Net50モデルよりも14.6%EERを相対的に削減し、有望な結果を達成する。
関連論文リスト
- Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - TransfoRNN: Capturing the Sequential Information in Self-Attention
Representations for Language Modeling [9.779600950401315]
本稿では,TransfoRNNモデルと呼ばれるトランスフォーマーに繰り返し発生するニューラルネットワークをカスケードして,シーケンシャルな情報を取得することを提案する。
浅いTransformersスタックのみで構成されるTransfoRNNモデルは、比較可能な性能を提供するのに十分であることが分かりました。
論文 参考訳(メタデータ) (2021-04-04T09:31:18Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。