論文の概要: TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding
- arxiv url: http://arxiv.org/abs/2203.09098v1
- Date: Thu, 17 Mar 2022 05:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:50:20.068165
- Title: TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding
- Title(参考訳): TMS: 話者埋め込みのための一時的マルチスケールバックボーン設計
- Authors: Ruiteng Zhang, Jianguo Wei, Xugang Lu, Wenhuan Lu, Di Jin, Junhai Xu,
Lin Zhang, Yantao Ji, Jianwu Dang
- Abstract要約: 話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
- 参考スコア(独自算出の注目度): 60.292702363839716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker embedding is an important front-end module to explore discriminative
speaker features for many speech applications where speaker information is
needed. Current SOTA backbone networks for speaker embedding are designed to
aggregate multi-scale features from an utterance with multi-branch network
architectures for speaker representation. However, naively adding many branches
of multi-scale features with the simple fully convolutional operation could not
efficiently improve the performance due to the rapid increase of model
parameters and computational complexity. Therefore, in the most current
state-of-the-art network architectures, only a few branches corresponding to a
limited number of temporal scales could be designed for speaker embeddings. To
address this problem, in this paper, we propose an effective temporal
multi-scale (TMS) model where multi-scale branches could be efficiently
designed in a speaker embedding network almost without increasing computational
costs. The new model is based on the conventional TDNN, where the network
architecture is smartly separated into two modeling operators: a
channel-modeling operator and a temporal multi-branch modeling operator. Adding
temporal multi-scale in the temporal multi-branch operator needs only a little
bit increase of the number of parameters, and thus save more computational
budget for adding more branches with large temporal scales. Moreover, in the
inference stage, we further developed a systemic re-parameterization method to
convert the TMS-based model into a single-path-based topology in order to
increase inference speed. We investigated the performance of the new TMS method
for automatic speaker verification (ASV) on in-domain and out-of-domain
conditions. Results show that the TMS-based model obtained a significant
increase in the performance over the SOTA ASV models, meanwhile, had a faster
inference speed.
- Abstract(参考訳): 話者埋め込みは、話者情報が必要な多くの音声アプリケーションにおいて、差別的な話者特徴を探索する重要なフロントエンドモジュールである。
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
しかし, モデルパラメータの急激な増加と計算複雑性のため, 単純な完全畳み込み演算によるマルチスケール機能の追加は, 効率向上には至らなかった。
したがって、最先端のネットワークアーキテクチャでは、限られた数の時間スケールに対応する分枝のみが話者埋め込み用に設計できる。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
新しいモデルは従来のtdnnに基づいており、ネットワークアーキテクチャはチャネルモデリングオペレータと時間的マルチブランチモデリングオペレータという2つのモデリングオペレータにスマートに分離されている。
時間的マルチブランチ演算子に時間的マルチスケールを追加するには、パラメータの数をほんの少し増やすだけでよい。
さらに,推定段階において,tmsに基づくモデルを単一経路に基づくトポロジーに変換するシステム的再パラメータ化法を更に開発し,推定速度を増加させた。
ドメイン内および外部条件における自動話者検証(ASV)のための新しいTMS法の性能について検討した。
その結果、TMSモデルではSOTA ASVモデルよりも性能が大幅に向上し、高速な推論速度が得られた。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [16.4160685571157]
リカレントニューラルネットワーク(RNN)は、時間的依存をモデル化する能力で広く認識されている。
本稿では、ゲートRNNのための新しい遅延メモリユニット(DMU)を提案する。
DMUは遅延線構造と遅延ゲートをバニラRNNに組み込み、時間的相互作用を高め、時間的信用割り当てを容易にする。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - Disentangling Structured Components: Towards Adaptive, Interpretable and
Scalable Time Series Forecasting [52.47493322446537]
本研究では,時空間パターンの各コンポーネントを個別にモデル化する適応的,解釈可能,スケーラブルな予測フレームワークを開発する。
SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。
SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-05-22T13:39:44Z) - Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。
我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。
本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-02T17:50:54Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - CS-Rep: Making Speaker Verification Networks Embracing
Re-parameterization [27.38202134344989]
本研究では、モデルの推論速度と検証精度を高めるために、CS-Rep(クロスシーケンス再パラメータ化)を提案する。
Rep-TDNNは実際の推論速度を50%向上させ、EERを10%削減する。
論文 参考訳(メタデータ) (2021-10-26T08:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。