論文の概要: DT-SV: A Transformer-based Time-domain Approach for Speaker Verification
- arxiv url: http://arxiv.org/abs/2205.13249v1
- Date: Thu, 26 May 2022 09:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 01:36:24.193956
- Title: DT-SV: A Transformer-based Time-domain Approach for Speaker Verification
- Title(参考訳): DT-SV:話者検証のための変換器に基づく時間領域アプローチ
- Authors: Nan Zhang, Jianzong Wang, Zhenhou Hong, Chendong Zhao, Xiaoyang Qu,
Jing Xiao
- Abstract要約: 話者検証(SV)は、話者の発話の同一性が基準音声と同一であるかどうかを判定することを目的としている。
本稿では,トランスフォーマーアーキテクチャを用いて発話レベル話者埋め込みを導出する手法を提案する。
また,学習可能なメルフバンク型エネルギー特徴抽出器である時間領域特徴抽出器についても紹介する。
- 参考スコア(独自算出の注目度): 24.613926376221155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker verification (SV) aims to determine whether the speaker's identity of
a test utterance is the same as the reference speech. In the past few years,
extracting speaker embeddings using deep neural networks for SV systems has
gone mainstream. Recently, different attention mechanisms and Transformer
networks have been explored widely in SV fields. However, utilizing the
original Transformer in SV directly may have frame-level information waste on
output features, which could lead to restrictions on capacity and
discrimination of speaker embeddings. Therefore, we propose an approach to
derive utterance-level speaker embeddings via a Transformer architecture that
uses a novel loss function named diffluence loss to integrate the feature
information of different Transformer layers. Therein, the diffluence loss aims
to aggregate frame-level features into an utterance-level representation, and
it could be integrated into the Transformer expediently. Besides, we also
introduce a learnable mel-fbank energy feature extractor named time-domain
feature extractor that computes the mel-fbank features more precisely and
efficiently than the standard mel-fbank extractor. Combining Diffluence loss
and Time-domain feature extractor, we propose a novel Transformer-based
time-domain SV model (DT-SV) with faster training speed and higher accuracy.
Experiments indicate that our proposed model can achieve better performance in
comparison with other models.
- Abstract(参考訳): 話者検証(SV)は、話者の発話の同一性が基準音声と同じかどうかを判定することを目的としている。
近年,SVシステムのためのディープニューラルネットワークを用いた話者埋め込みの抽出が主流となっている。
近年,SV分野において様々な注意機構やトランスフォーマーネットワークが広く研究されている。
しかし、svで元のトランスフォーマーを直接利用すると、出力機能に関するフレームレベルの情報が無駄になり、キャパシティの制限や話者埋め込みの識別につながる可能性がある。
そこで本研究では, 差分損失と呼ばれる新しい損失関数を用いて, 異なるトランス層の特徴情報を統合したトランスフォーマーアーキテクチャによる発話レベル話者埋め込みの導出手法を提案する。
差分損失はフレームレベルの特徴を発話レベルの表現に集約することを目的としており、トランスフォーマーに迅速に統合することができる。
また,学習可能なメル・フバンクエネルギー特徴抽出器であるタイムドメイン特徴抽出器を導入し,メル・フバンク特徴を標準のメル・フバンク抽出器よりも高精度かつ効率的に計算する。
拡散損失と時間領域特徴抽出器を組み合わせることで,高速なトレーニング速度と高精度な時間領域SVモデル(DT-SV)を提案する。
実験の結果,提案モデルは他のモデルと比較して優れた性能が得られることがわかった。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - A Differential Attention Fusion Model Based on Transformer for Time
Series Forecasting [4.666618110838523]
時系列予測は、機器ライフサイクル予測、天気予報、交通流予測などの分野で広く利用されている。
一部の学者は、この強力な並列トレーニング能力のために、Transformerを時系列予測に適用しようと試みている。
既存のTransformerメソッドは、予測において決定的な役割を果たす小さな時間セグメントに十分な注意を払わない。
論文 参考訳(メタデータ) (2022-02-23T10:33:12Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。