論文の概要: Vocal Tract Length Perturbation for Text-Dependent Speaker Verification
with Autoregressive Prediction Coding
- arxiv url: http://arxiv.org/abs/2011.12536v2
- Date: Thu, 25 Mar 2021 18:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:32:21.415112
- Title: Vocal Tract Length Perturbation for Text-Dependent Speaker Verification
with Autoregressive Prediction Coding
- Title(参考訳): 自己回帰予測符号化を用いたテキスト依存話者検証のための声道長摂動
- Authors: Achintya kr. Sarkar, Zheng-Hua Tan (Senior Member, IEEE)
- Abstract要約: テキスト依存型話者検証(TD-SV)のための声道長(VTL)摂動法を提案する。
各VTL因子に対して一連のTD-SVシステムを訓練し、最終的な決定のためにスコアレベル融合を適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this letter, we propose a vocal tract length (VTL) perturbation method for
text-dependent speaker verification (TD-SV), in which a set of TD-SV systems
are trained, one for each VTL factor, and score-level fusion is applied to make
a final decision. Next, we explore the bottleneck (BN) feature extracted by
training deep neural networks with a self-supervised objective, autoregressive
predictive coding (APC), for TD-SV and compare it with the well-studied
speaker-discriminant BN feature. The proposed VTL method is then applied to APC
and speaker-discriminant BN features. In the end, we combine the VTL
perturbation systems trained on MFCC and the two BN features in the score
domain. Experiments are performed on the RedDots challenge 2016 database of
TD-SV using short utterances with Gaussian mixture model-universal background
model and i-vector techniques. Results show the proposed methods significantly
outperform the baselines.
- Abstract(参考訳): 本稿では,テキスト依存型話者検証(TD-SV)のための声道長(VTL)摂動法を提案する。
次に,td-svのための自己教師付き目標自己回帰予測符号化(apc)を用いて深層ニューラルネットワークを訓練することにより抽出したボトルネック(bn)の特徴を考察し,よく検討された話者識別型bn機能と比較する。
提案手法は、APCおよび話者識別BN特徴に対して適用される。
最終的に、MFCCで訓練されたVTL摂動システムとスコア領域の2つのBN特徴を組み合わせる。
The RedDots Challenge 2016 database of TD-SVでガウス混合背景モデルとi-vectorを用いた短い発話を用いて実験を行った。
その結果,提案手法はベースラインを大きく上回ることがわかった。
関連論文リスト
- Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - On Training Targets and Activation Functions for Deep Representation
Learning in Text-Dependent Speaker Verification [18.19207291891767]
主な考慮事項は、トレーニングターゲット、アクティベーション関数、損失関数である。
本研究では,話者識別を訓練対象とする場合の損失関数の範囲について検討する。
GELUはSigmoidと比較してTD-SVの誤差率を大幅に低減できることを示した。
論文 参考訳(メタデータ) (2022-01-17T14:32:51Z) - Learning a Word-Level Language Model with Sentence-Level Noise
Contrastive Estimation for Contextual Sentence Probability Estimation [3.1040192682787415]
文や単語列の確率分布を推測することは自然言語処理の重要なプロセスである。
単語レベルの言語モデル(LM)は、単語列の共同確率を計算するために広く採用されているが、文確率推定(SPE)に十分長いコンテキストの取得が困難である。
最近の研究は、リカレントニューラルネットワーク(RNN)を用いた文レベルノイズコントラスト推定(NCE)を用いたトレーニング手法を導入している。
本手法を単純な単語レベルのRNN LMに適用し,ネットワークアーキテクチャではなく文レベルのNCEトレーニングの効果に着目した。
論文 参考訳(メタデータ) (2021-03-14T09:17:37Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Data Generation Using Pass-phrase-dependent Deep Auto-encoders for
Text-Dependent Speaker Verification [25.318439244029094]
テキスト依存型話者検証(TD-SV)のための拡張データを作成するためのパスフレーズ特異的ディープニューラルネットワーク(PP-DNN)ベースのオートエンコーダを訓練する新しい手法を提案する。
各PP-DNNオートエンコーダは、ターゲット登録セットで利用可能な特定のパスフレーズの発声を用いて訓練される。
短い発話を用いたTD-SVのためのRedDots Challenge 2016データベース上で実験が行われた。
論文 参考訳(メタデータ) (2021-02-03T14:06:29Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - On Bottleneck Features for Text-Dependent Speaker Verification Using
X-vectors [20.829997825439886]
テキスト依存型話者検証(TD-SV)のためのxベクトルの検討
異なるボトルネック(BN)特徴がxベクトルの性能に与える影響について検討する。
実験はRedDots 2016 Challengeデータベース上で実施されている。
論文 参考訳(メタデータ) (2020-05-15T07:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。