論文の概要: DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning
- arxiv url: http://arxiv.org/abs/2012.06896v2
- Date: Mon, 22 Feb 2021 22:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:10:13.885014
- Title: DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning
- Title(参考訳): DEAAN:ロバスト話者表現学習のための斜め埋め込みと逆適応ネットワーク
- Authors: Mufan Sang, Wei Xia, John H.L. Hansen
- Abstract要約: 話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
- 参考スコア(独自算出の注目度): 69.70594547377283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite speaker verification has achieved significant performance improvement
with the development of deep neural networks, domain mismatch is still a
challenging problem in this field. In this study, we propose a novel framework
to disentangle speaker-related and domain-specific features and apply domain
adaptation on the speaker-related feature space solely. Instead of performing
domain adaptation directly on the feature space where domain information is not
removed, using disentanglement can efficiently boost adaptation performance. To
be specific, our model's input speech from the source and target domains is
first encoded into different latent feature spaces. The adversarial domain
adaptation is conducted on the shared speaker-related feature space to
encourage the property of domain-invariance. Further, we minimize the mutual
information between speaker-related and domain-specific features for both
domains to enforce the disentanglement. Experimental results on the VOiCES
dataset demonstrate that our proposed framework can effectively generate more
speaker-discriminative and domain-invariant speaker representations with a
relative 20.3% reduction of EER compared to the original ResNet-based system.
- Abstract(参考訳): ディープニューラルネットワークの開発で話者検証が大幅なパフォーマンス向上を達成したにもかかわらず、ドメインミスマッチはこの分野では依然として困難な問題である。
本研究では,話者関連特徴とドメイン特化特徴を分離し,話者関連特徴空間にのみドメイン適応を適用する新しい枠組みを提案する。
ドメイン情報が削除されない機能空間に直接ドメイン適応を実行する代わりに、アンタングルメントを使用することで、適応性能を効率的に向上させることができる。
具体的には,対象領域とソース領域からの入力音声を,まず複数の潜在特徴空間に符号化する。
対向領域適応は、共有話者関連特徴空間上で行われ、ドメイン不変性の促進を行う。
さらに,両領域の話者関連特徴とドメイン固有特徴の相互情報を最小限に抑え,不整合を強制する。
VOiCESデータセットを用いた実験結果から,提案するフレームワークは,従来のResNetシステムと比較して,EERを20.3%削減した話者識別およびドメイン不変の話者表現を効果的に生成できることが示された。
関連論文リスト
- AIR-DA: Adversarial Image Reconstruction for Unsupervised Domain
Adaptive Object Detection [28.22783703278792]
特徴抽出器の対角訓練を容易にするための正則化器としての適応画像再構成(AIR)
ドメインシフトに挑戦するいくつかのデータセットにまたがって評価を行った結果,提案手法が従来の手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-03-27T16:51:51Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Adversarial Bi-Regressor Network for Domain Adaptive Regression [52.5168835502987]
ドメインシフトを軽減するために、クロスドメインレグレッタを学ぶことが不可欠です。
本稿では、より効果的なドメイン間回帰モデルを求めるために、ABRNet(Adversarial Bi-Regressor Network)を提案する。
論文 参考訳(メタデータ) (2022-09-20T18:38:28Z) - Unsupervised Domain Adaptation via Style-Aware Self-intermediate Domain [52.783709712318405]
非教師なしドメイン適応(UDA)は、ラベル豊富なソースドメインから関連するがラベルのないターゲットドメインに知識を伝達する、かなりの注目を集めている。
本研究では,大規模なドメインギャップと伝達知識を橋渡しし,クラス非ネイティブ情報の損失を軽減するために,SAFF(style-aware feature fusion)法を提案する。
論文 参考訳(メタデータ) (2022-09-05T10:06:03Z) - Joint Attention-Driven Domain Fusion and Noise-Tolerant Learning for
Multi-Source Domain Adaptation [2.734665397040629]
マルチソースUnsupervised Domain Adaptationはラベル付きデータを持つ複数のソースドメインからラベル付きターゲットドメインに知識を転送する。
異なるドメインとターゲットドメイン内のノイズの多い擬似ラベル間の分散の相違は、どちらもパフォーマンスのボトルネックにつながる。
本稿では,意識駆動型ドメイン融合(ADNT)と雑音耐性学習(ADNT)を統合し,上記の2つの問題に対処するアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-05T01:08:41Z) - Self-Adversarial Disentangling for Specific Domain Adaptation [52.1935168534351]
ドメイン適応は、ソースとターゲットドメイン間のドメインシフトをブリッジすることを目的としています。
最近の手法では、特定の次元について明示的な事前知識を考慮しないのが一般的である。
論文 参考訳(メタデータ) (2021-08-08T02:36:45Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Adaptively-Accumulated Knowledge Transfer for Partial Domain Adaptation [66.74638960925854]
部分ドメイン適応(PDA)は、ソースドメインラベル空間がターゲットドメインを置き換えるとき、現実的で困難な問題を扱う。
本稿では,2つの領域にまたがる関連カテゴリを整合させる適応的知識伝達フレームワーク(A$2KT)を提案する。
論文 参考訳(メタデータ) (2020-08-27T00:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。