論文の概要: Improving Multi-Scale Aggregation Using Feature Pyramid Module for
Robust Speaker Verification of Variable-Duration Utterances
- arxiv url: http://arxiv.org/abs/2004.03194v4
- Date: Thu, 6 Aug 2020 06:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 22:45:10.940001
- Title: Improving Multi-Scale Aggregation Using Feature Pyramid Module for
Robust Speaker Verification of Variable-Duration Utterances
- Title(参考訳): 可変デュレーション発話のロバスト話者検証のための特徴ピラミッドモジュールを用いたマルチスケールアグリゲーションの改善
- Authors: Youngmoon Jung, Seong Min Kye, Yeunju Choi, Myunghun Jung, Hoirin Kim
- Abstract要約: トップダウン経路と横方向接続を介して複数の層から特徴の話者識別情報を強化するモジュールを提案する。
短い発話と長い発話の両方において、最先端のアプローチよりも優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 15.887661651035712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the most widely used approach for speaker verification is the deep
speaker embedding learning. In this approach, we obtain a speaker embedding
vector by pooling single-scale features that are extracted from the last layer
of a speaker feature extractor. Multi-scale aggregation (MSA), which utilizes
multi-scale features from different layers of the feature extractor, has
recently been introduced and shows superior performance for variable-duration
utterances. To increase the robustness dealing with utterances of arbitrary
duration, this paper improves the MSA by using a feature pyramid module. The
module enhances speaker-discriminative information of features from multiple
layers via a top-down pathway and lateral connections. We extract speaker
embeddings using the enhanced features that contain rich speaker information
with different time scales. Experiments on the VoxCeleb dataset show that the
proposed module improves previous MSA methods with a smaller number of
parameters. It also achieves better performance than state-of-the-art
approaches for both short and long utterances.
- Abstract(参考訳): 現在、話者検証の最も広く使われているアプローチは、深い話者埋め込み学習である。
本研究では,話者特徴抽出器の最後の層から抽出した単音階特徴をプールすることで,話者埋め込みベクトルを得る。
特徴抽出器の異なる層からのマルチスケール特徴を利用するマルチスケールアグリゲーション (MSA) が最近導入され, 可変重畳発話の性能が向上している。
任意の持続時間の発話に対するロバスト性を高めるために,特徴ピラミッドモジュールを用いてmsaを改善した。
このモジュールは、トップダウン経路と横接続を介して複数の層から特徴の話者識別情報を強化する。
時間スケールの異なるリッチな話者情報を含む拡張機能を用いて話者埋め込みを抽出する。
VoxCelebデータセットの実験では、提案されたモジュールはパラメータの少ない以前のMSAメソッドを改善している。
また、短い発話と長い発話の両方に対して最先端のアプローチよりも優れたパフォーマンスを実現する。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Multistep feature aggregation framework for salient object detection [0.0]
本稿では,有能な物体検出のための多段階特徴集約フレームワークを提案する。
Diverse Reception (DR) モジュール、Multiscale Interaction (MSI) モジュール、Feature Enhancement (FE) モジュールの3つのモジュールで構成されている。
6つのベンチマークデータセットの実験結果は、MSFAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-12T16:13:16Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Self-Attentive Multi-Layer Aggregation with Feature Recalibration and
Normalization for End-to-End Speaker Verification System [8.942112181408158]
エンドツーエンド話者認証システムにおいて,特徴の校正と正規化を併用した自己注意型多層アグリゲーションを提案する。
VoxCeleb1評価データセットを用いた実験結果から,提案手法の性能は最先端モデルに匹敵することがわかった。
論文 参考訳(メタデータ) (2020-07-27T08:10:46Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。