論文の概要: Data Generation Using Pass-phrase-dependent Deep Auto-encoders for
Text-Dependent Speaker Verification
- arxiv url: http://arxiv.org/abs/2102.02074v1
- Date: Wed, 3 Feb 2021 14:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 16:57:05.288846
- Title: Data Generation Using Pass-phrase-dependent Deep Auto-encoders for
Text-Dependent Speaker Verification
- Title(参考訳): パスフレーズ依存ディープオートエンコーダを用いたテキスト依存話者検証のためのデータ生成
- Authors: Achintya Kumar Sarkar, Md Sahidullah, Zheng-Hua Tan
- Abstract要約: テキスト依存型話者検証(TD-SV)のための拡張データを作成するためのパスフレーズ特異的ディープニューラルネットワーク(PP-DNN)ベースのオートエンコーダを訓練する新しい手法を提案する。
各PP-DNNオートエンコーダは、ターゲット登録セットで利用可能な特定のパスフレーズの発声を用いて訓練される。
短い発話を用いたTD-SVのためのRedDots Challenge 2016データベース上で実験が行われた。
- 参考スコア(独自算出の注目度): 25.318439244029094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel method that trains pass-phrase specific
deep neural network (PP-DNN) based auto-encoders for creating augmented data
for text-dependent speaker verification (TD-SV). Each PP-DNN auto-encoder is
trained using the utterances of a particular pass-phrase available in the
target enrollment set with two methods: (i) transfer learning and (ii) training
from scratch. Next, feature vectors of a given utterance are fed to the PP-DNNs
and the output from each PP-DNN at frame-level is considered one new set of
generated data. The generated data from each PP-DNN is then used for building a
TD-SV system in contrast to the conventional method that considers only the
evaluation data available. The proposed approach can be considered as the
transformation of data to the pass-phrase specific space using a non-linear
transformation learned by each PP-DNN. The method develops several TD-SV
systems with the number equal to the number of PP-DNNs separately trained for
each pass-phrases for the evaluation. Finally, the scores of the different
TD-SV systems are fused for decision making. Experiments are conducted on the
RedDots challenge 2016 database for TD-SV using short utterances. Results show
that the proposed method improves the performance for both conventional
cepstral feature and deep bottleneck feature using both Gaussian mixture model
- universal background model (GMM-UBM) and i-vector framework.
- Abstract(参考訳): 本稿では,テキスト依存話者照合(td-sv)のための拡張データを作成するために,pp-dnn(pass-phrase specific deep neural network)ベースの自動エンコーダを訓練する新しい手法を提案する。
各pp-dnnオートエンコーダは、(i)転送学習と(ii)スクラッチからトレーニングという2つの方法で、ターゲット登録で利用可能な特定のパスフレーズの発話を用いて訓練される。
次に、所定の発話の特徴ベクトルをPP-DNNに供給し、フレームレベルでの各PP-DNNからの出力を生成データの新しいセットと考える。
各PP-DNNから生成されたデータは、利用可能な評価データのみを考慮する従来の方法とは対照的に、TD-SVシステムを構築するために使用されます。
提案手法は,各PP-DNNで学習した非線形変換を用いて,データからパスフレーズ特定空間への変換とみなすことができる。
本手法は,各パスフレーズに対して個別に訓練されたPP-DNNの数に等しい数のTD-SVシステムを開発する。
最後に、異なるTD-SVシステムのスコアは意思決定のために融合される。
短い発話を用いたtd-sv用reddots challenge 2016データベースで実験を行った。
提案手法は,ガウス混合モデル (GMM-UBM) と i-vector フレームワークの両方を用いて,従来のケプストラム特徴と深いボトルネック特徴の両方の性能を改善した。
関連論文リスト
- FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - A stacked deep convolutional neural network to predict the remaining
useful life of a turbofan engine [0.0]
このソリューションは、2つのレベルにスタックされた2つのDeep Convolutional Neural Networkに基づいている。
提案手法は2021年のPHM会議データチャレンジの第3位にランクされた。
論文 参考訳(メタデータ) (2021-11-24T18:36:28Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Vocal Tract Length Perturbation for Text-Dependent Speaker Verification
with Autoregressive Prediction Coding [0.0]
テキスト依存型話者検証(TD-SV)のための声道長(VTL)摂動法を提案する。
各VTL因子に対して一連のTD-SVシステムを訓練し、最終的な決定のためにスコアレベル融合を適用する。
論文 参考訳(メタデータ) (2020-11-25T06:11:06Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Diversifying Task-oriented Dialogue Response Generation with Prototype
Guided Paraphrasing [52.71007876803418]
タスク指向対話システム(TDS)における既存の対話応答生成(DRG)方法は、テンプレートベースとコーパスベースという2つのカテゴリに分類される。
我々はP2-Netと呼ばれるプロトタイプベースのパラフレーズニューラルネットワークを提案し、精度と多様性の両面で応答の質を高めることを目的としている。
論文 参考訳(メタデータ) (2020-08-07T22:25:36Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z) - A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。
9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。
我々は最先端の結果に匹敵する精度を達成した。
論文 参考訳(メタデータ) (2020-03-19T00:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。