論文の概要: DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification
- arxiv url: http://arxiv.org/abs/2310.12111v1
- Date: Wed, 18 Oct 2023 17:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:27:05.868723
- Title: DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification
- Title(参考訳): DASA:話者認証のための難易度対応セマンティック拡張
- Authors: Yuanyuan Wang, Yang Zhang, Zhiyong Wu, Zhihan Yang, Tao Wei, Kun Zou,
Helen Meng
- Abstract要約: 本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
- 参考スコア(独自算出の注目度): 55.306583814017046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is vital to the generalization ability and robustness of
deep neural networks (DNNs) models. Existing augmentation methods for speaker
verification manipulate the raw signal, which are time-consuming and the
augmented samples lack diversity. In this paper, we present a novel
difficulty-aware semantic augmentation (DASA) approach for speaker
verification, which can generate diversified training samples in speaker
embedding space with negligible extra computing cost. Firstly, we augment
training samples by perturbing speaker embeddings along semantic directions,
which are obtained from speaker-wise covariance matrices. Secondly, accurate
covariance matrices are estimated from robust speaker embeddings during
training, so we introduce difficultyaware additive margin softmax
(DAAM-Softmax) to obtain optimal speaker embeddings. Finally, we assume the
number of augmented samples goes to infinity and derive a closed-form upper
bound of the expected loss with DASA, which achieves compatibility and
efficiency. Extensive experiments demonstrate the proposed approach can achieve
a remarkable performance improvement. The best result achieves a 14.6% relative
reduction in EER metric on CN-Celeb evaluation set.
- Abstract(参考訳): データ拡張は、ディープニューラルネットワーク(DNN)モデルの一般化能力と堅牢性に不可欠である。
話者照合のための既存の拡張法は、時間を要する生信号を操作し、拡張されたサンプルは多様性を欠いている。
本稿では,話者検証のための難易度対応セマンティック拡張(DASA)手法を提案する。
まず,話者間の共分散行列から得られる意味的方向に沿って話者埋め込みを摂動することで,学習サンプルを増強する。
次に,学習中のロバストな話者埋め込みから正確な共分散行列を推定し,難易度アダプティブ・マージン・ソフトマックス(daam-softmax)を導入し,最適な話者埋め込みを得る。
最後に、拡張サンプルの数は無限大となり、DASAによる期待損失の閉形式上界が導出され、互換性と効率性が得られると仮定する。
広範な実験により,提案手法が著しい性能向上を達成できることが実証された。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
関連論文リスト
- HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System [0.9591674293850556]
学習音声サンプルに知覚不能な摂動を埋め込んだHiddenSpeakerというフレームワークを提案する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の知覚能力を高めることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T15:49:00Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Inference Stage Denoising for Undersampled MRI Reconstruction [13.8086726938161]
磁気共鳴画像(MRI)データの再構成は、ディープラーニングによって肯定的な影響を受けている。
重要な課題は、トレーニングとテストデータ間の分散シフトへの一般化を改善することだ。
論文 参考訳(メタデータ) (2024-02-12T12:50:10Z) - Adversarial Data Augmentation for Robust Speaker Verification [17.40709301417885]
本稿では,A-DA(Adversarial Data Augmentation)と呼ばれる新しい手法を提案する。
データ拡張で使用されるさまざまな拡張タイプを分類する拡張分類器が追加される。
VoxCeleb と CN-Celeb のデータセットを用いて行った実験により,提案したA-DA は,A-DA が一致した条件と一致しない条件の両方において,標準DA よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-05T03:23:34Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。