論文の概要: Improving Embedding Extraction for Speaker Verification with Ladder
Network
- arxiv url: http://arxiv.org/abs/2003.09125v1
- Date: Fri, 20 Mar 2020 07:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 23:11:15.845476
- Title: Improving Embedding Extraction for Speaker Verification with Ladder
Network
- Title(参考訳): ラダーネットワークを用いた話者照合のための埋め込み抽出の改善
- Authors: Fei Tao and Gokhan Tur
- Abstract要約: 最近の話者検証(SV)システムは、ディープニューラルネットワークを使って高レベルの埋め込みを抽出している。
本稿では,教師付き学習スタイルと教師なし学習スタイルを組み合わせた,ラグネットワークフレームワークをSVシステムに適用することを提案する。
提案手法は,パラメータや拡張データを追加することなく,最大10%の性能向上を実現した。
- 参考スコア(独自算出の注目度): 8.843122009658252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification is an established yet challenging task in speech
processing and a very vibrant research area. Recent speaker verification (SV)
systems rely on deep neural networks to extract high-level embeddings which are
able to characterize the users' voices. Most of the studies have investigated
on improving the discriminability of the networks to extract better embeddings
for performances improvement. However, only few research focus on improving the
generalization. In this paper, we propose to apply the ladder network framework
in the SV systems, which combines the supervised and unsupervised learning
fashions. The ladder network can make the system to have better high-level
embedding by balancing the trade-off to keep/discard as much useful/useless
information as possible. We evaluated the framework on two state-of-the-art SV
systems, d-vector and x-vector, which can be used for different use cases. The
experiments showed that the proposed approach relatively improved the
performance by 10% at most without adding parameters and augmented data.
- Abstract(参考訳): 話者検証は、音声処理において確立されながら難しい課題であり、非常に活発な研究領域である。
最近の話者検証(sv)システムは、ディープニューラルネットワークを使用して、ユーザの声を特徴付ける高レベルの埋め込みを抽出する。
多くの研究は、ネットワークの識別性を改善し、パフォーマンス改善のためのより良い埋め込みを抽出することを研究している。
しかし、一般化の改善に焦点を絞った研究は少ない。
本稿では,教師付き学習と教師なし学習を併用したラージネットワークフレームワークをSVシステムに適用することを提案する。
はしごネットワークは、トレードオフのバランスを保ち、可能な限り役に立たない情報を保持することで、システムをより高レベルな埋め込みを実現することができる。
我々はこのフレームワークをd-vectorとx-vectorという2つの最先端svシステムで評価した。
実験の結果,提案手法はパラメータや拡張データを加えることなく,最大10%の性能向上を実現した。
関連論文リスト
- Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Box-based Refinement for Weakly Supervised and Unsupervised Localization
Tasks [57.70351255180495]
我々は、画像データの代わりにネットワーク出力の上の検出器を訓練し、適切な損失バックプロパゲーションを適用する。
本研究は,課題の見地に対するフレーズ接頭辞の大幅な改善を明らかにした。
論文 参考訳(メタデータ) (2023-09-07T17:36:02Z) - Joint Speech Activity and Overlap Detection with Multi-Exit Architecture [5.4878772986187565]
オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。
本研究は,新たな視点からVADとOSDの共同作業について検討する。
特に,従来の分類網をマルチエグジットアーキテクチャで拡張することを提案する。
論文 参考訳(メタデータ) (2022-09-24T02:34:11Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Efficient Attention Branch Network with Combined Loss Function for
Automatic Speaker Verification Spoof Detection [7.219077740523682]
自動話者検証(Automatic Speaker Verification)のタスクのために現在デプロイされているモデルは、その最善は、目に見えない攻撃に対して適切な一般化の度合いを欠いていることである。
本研究では、一般化問題に対処するために、損失関数を組み合わせた効率的な注意分岐ネットワーク(EABN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-05T12:10:16Z) - On the role of feedback in visual processing: a predictive coding
perspective [0.6193838300896449]
我々は、フィードフォワード視覚処理のモデルとして深層畳み込みネットワーク(CNN)を検討し、予測符号化(PC)ダイナミクスを実装した。
ノイズレベルが増加するにつれて、ネットワークはますますトップダウンの予測に依存している。
さらに,PCダイナミクスを実装するネットワークの精度は,等価なフォワードネットワークに比べて時間経過とともに著しく向上する。
論文 参考訳(メタデータ) (2021-06-08T10:07:23Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。