論文の概要: Adversarial Data Augmentation for Robust Speaker Verification
- arxiv url: http://arxiv.org/abs/2402.02699v1
- Date: Mon, 5 Feb 2024 03:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:59:34.614186
- Title: Adversarial Data Augmentation for Robust Speaker Verification
- Title(参考訳): ロバスト話者検証のための逆データ拡張
- Authors: Zhenyu Zhou and Junhui Chen and Namin Wang and Lantian Li and Dong
Wang
- Abstract要約: 本稿では,A-DA(Adversarial Data Augmentation)と呼ばれる新しい手法を提案する。
データ拡張で使用されるさまざまな拡張タイプを分類する拡張分類器が追加される。
VoxCeleb と CN-Celeb のデータセットを用いて行った実験により,提案したA-DA は,A-DA が一致した条件と一致しない条件の両方において,標準DA よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 17.40709301417885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) has gained widespread popularity in deep speaker
models due to its ease of implementation and significant effectiveness. It
enriches training data by simulating real-life acoustic variations, enabling
deep neural networks to learn speaker-related representations while
disregarding irrelevant acoustic variations, thereby improving robustness and
generalization. However, a potential issue with the vanilla DA is augmentation
residual, i.e., unwanted distortion caused by different types of augmentation.
To address this problem, this paper proposes a novel approach called
adversarial data augmentation (A-DA) which combines DA with adversarial
learning. Specifically, it involves an additional augmentation classifier to
categorize various augmentation types used in data augmentation. This
adversarial learning empowers the network to generate speaker embeddings that
can deceive the augmentation classifier, making the learned speaker embeddings
more robust in the face of augmentation variations. Experiments conducted on
VoxCeleb and CN-Celeb datasets demonstrate that our proposed A-DA outperforms
standard DA in both augmentation matched and mismatched test conditions,
showcasing its superior robustness and generalization against acoustic
variations.
- Abstract(参考訳): データ拡張(DA)は、実装の容易さと重要な有効性により、ディープスピーカーモデルで広く普及している。
実生活の音響変化をシミュレートすることでトレーニングデータを強化し、深いニューラルネットワークは無関係な音響変化を無視しながら話者関連表現を学習し、堅牢性と一般化を改善する。
しかしながら、バニラDAの潜在的な問題は増大残留、すなわち異なる種類の増大に起因する不必要な歪みである。
そこで本稿では,daと逆学習を組み合わせた新しいアプローチであるadversarial data augmentation (a-da)を提案する。
具体的には、データ拡張に使用されるさまざまな拡張タイプを分類する拡張分類器を追加する。
この敵対的学習により、ネットワークは拡張分類器を欺くことができる話者埋め込みを生成することができ、学習された話者埋め込みは増分変動に直面してより堅牢になる。
VoxCeleb と CN-Celeb のデータセットを用いて行った実験により,提案したA-DA は実験条件の整合性および整合性の両方において標準DA よりも優れており,その優れた堅牢性と音響変動に対する一般化が示された。
関連論文リスト
- Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation [12.697608744311122]
AdaAugmentは、チューニング不要なAdaptive Augmentationメソッドである。
対象ネットワークからのリアルタイムフィードバックに基づいて、個別のトレーニングサンプルの増大度を動的に調整する。
優れた効率を保ちながら、他の最先端のDAメソッドの効率を一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-19T06:54:03Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。