論文の概要: DT-SV: A Transformer-based Time-domain Approach for Speaker Verification
- arxiv url: http://arxiv.org/abs/2205.13249v1
- Date: Thu, 26 May 2022 09:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 01:36:24.193956
- Title: DT-SV: A Transformer-based Time-domain Approach for Speaker Verification
- Title(参考訳): DT-SV:話者検証のための変換器に基づく時間領域アプローチ
- Authors: Nan Zhang, Jianzong Wang, Zhenhou Hong, Chendong Zhao, Xiaoyang Qu,
Jing Xiao
- Abstract要約: 話者検証(SV)は、話者の発話の同一性が基準音声と同一であるかどうかを判定することを目的としている。
本稿では,トランスフォーマーアーキテクチャを用いて発話レベル話者埋め込みを導出する手法を提案する。
また,学習可能なメルフバンク型エネルギー特徴抽出器である時間領域特徴抽出器についても紹介する。
- 参考スコア(独自算出の注目度): 24.613926376221155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker verification (SV) aims to determine whether the speaker's identity of
a test utterance is the same as the reference speech. In the past few years,
extracting speaker embeddings using deep neural networks for SV systems has
gone mainstream. Recently, different attention mechanisms and Transformer
networks have been explored widely in SV fields. However, utilizing the
original Transformer in SV directly may have frame-level information waste on
output features, which could lead to restrictions on capacity and
discrimination of speaker embeddings. Therefore, we propose an approach to
derive utterance-level speaker embeddings via a Transformer architecture that
uses a novel loss function named diffluence loss to integrate the feature
information of different Transformer layers. Therein, the diffluence loss aims
to aggregate frame-level features into an utterance-level representation, and
it could be integrated into the Transformer expediently. Besides, we also
introduce a learnable mel-fbank energy feature extractor named time-domain
feature extractor that computes the mel-fbank features more precisely and
efficiently than the standard mel-fbank extractor. Combining Diffluence loss
and Time-domain feature extractor, we propose a novel Transformer-based
time-domain SV model (DT-SV) with faster training speed and higher accuracy.
Experiments indicate that our proposed model can achieve better performance in
comparison with other models.
- Abstract(参考訳): 話者検証(SV)は、話者の発話の同一性が基準音声と同じかどうかを判定することを目的としている。
近年,SVシステムのためのディープニューラルネットワークを用いた話者埋め込みの抽出が主流となっている。
近年,SV分野において様々な注意機構やトランスフォーマーネットワークが広く研究されている。
しかし、svで元のトランスフォーマーを直接利用すると、出力機能に関するフレームレベルの情報が無駄になり、キャパシティの制限や話者埋め込みの識別につながる可能性がある。
そこで本研究では, 差分損失と呼ばれる新しい損失関数を用いて, 異なるトランス層の特徴情報を統合したトランスフォーマーアーキテクチャによる発話レベル話者埋め込みの導出手法を提案する。
差分損失はフレームレベルの特徴を発話レベルの表現に集約することを目的としており、トランスフォーマーに迅速に統合することができる。
また,学習可能なメル・フバンクエネルギー特徴抽出器であるタイムドメイン特徴抽出器を導入し,メル・フバンク特徴を標準のメル・フバンク抽出器よりも高精度かつ効率的に計算する。
拡散損失と時間領域特徴抽出器を組み合わせることで,高速なトレーニング速度と高精度な時間領域SVモデル(DT-SV)を提案する。
実験の結果,提案モデルは他のモデルと比較して優れた性能が得られることがわかった。
関連論文リスト
- iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - A Differential Attention Fusion Model Based on Transformer for Time
Series Forecasting [4.666618110838523]
時系列予測は、機器ライフサイクル予測、天気予報、交通流予測などの分野で広く利用されている。
一部の学者は、この強力な並列トレーニング能力のために、Transformerを時系列予測に適用しようと試みている。
既存のTransformerメソッドは、予測において決定的な役割を果たす小さな時間セグメントに十分な注意を払わない。
論文 参考訳(メタデータ) (2022-02-23T10:33:12Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。