論文の概要: Disentangling Age and Identity with a Mutual Information Minimization Approach for Cross-Age Speaker Verification
- arxiv url: http://arxiv.org/abs/2409.15974v1
- Date: Tue, 24 Sep 2024 11:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 07:51:56.964583
- Title: Disentangling Age and Identity with a Mutual Information Minimization Approach for Cross-Age Speaker Verification
- Title(参考訳): 複数話者照合のための相互情報最小化手法によるディエンタングリング年齢とアイデンティティ
- Authors: Fengrun Zhang, Wangjin Zhou, Yiming Liu, Wang Geng, Yahui Shan, Chen Zhang,
- Abstract要約: 本稿では,相互情報(MI)最小化に基づくCASVの非交叉表現学習フレームワークを提案する。
正試料と負試料の年齢差を用いて,老化を考慮したMI最小化損失関数を提案する。
実験の結果,提案手法はVox-CAの複数のクロスエイジテストセットにおいて,他の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 6.210543044618148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been an increasing research interest in cross-age speaker verification~(CASV). However, existing speaker verification systems perform poorly in CASV due to the great individual differences in voice caused by aging. In this paper, we propose a disentangled representation learning framework for CASV based on mutual information~(MI) minimization. In our method, a backbone model is trained to disentangle the identity- and age-related embeddings from speaker information, and an MI estimator is trained to minimize the correlation between age- and identity-related embeddings via MI minimization, resulting in age-invariant speaker embeddings. Furthermore, by using the age gaps between positive and negative samples, we propose an aging-aware MI minimization loss function that allows the backbone model to focus more on the vocal changes with large age gaps. Experimental results show that the proposed method outperforms other methods on multiple Cross-Age test sets of Vox-CA.
- Abstract(参考訳): クロスエイジ話者検証(CASV)研究への関心が高まっている。
しかし,既存の話者認証システムでは,老化に伴う音声の個人差が大きいため,CASVの精度は低い。
本稿では,相互情報~(MI)最小化に基づくCASVの非絡み合い表現学習フレームワークを提案する。
本手法では,話者情報と年齢関連埋め込みを分離するためにバックボーンモデルを訓練し,年齢関連埋め込みと年齢関連埋め込みの相関を最小化するためにMI推定器を訓練し,年齢不変話者埋め込みを実現する。
さらに, 正試料と負試料の年齢差を用いて, 背骨モデルが大きな年齢差を持つ声質変化により焦点を絞ることができる, 老化を意識したMI最小化損失関数を提案する。
実験の結果,提案手法はVox-CAの複数のクロスエイジテストセットにおいて,他の手法よりも優れていることがわかった。
関連論文リスト
- DENOASR: Debiasing ASRs through Selective Denoising [5.544079217915537]
本稿では,2つの性別グループ間の単語誤り率の相違を低減するために,選択的なデノケーション手法であるDeNOASRを提案する。
一般的な2つの音声認識手法である「DEMUCS」と「LE」を組み合わせることで、全体的な性能を損なうことなく、ASRの相違を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-10-22T05:39:24Z) - Distribution-Level Memory Recall for Continual Learning: Preserving Knowledge and Avoiding Confusion [16.048033746416476]
継続学習(CL)は、DNNが学習した知識を忘れずに新しいデータを学習できるようにすることを目的としている。
この目標を達成するための鍵は、機能レベルでの混乱を避け、古いタスクと新しいタスクと古いタスクの混同を避けることである。
従来のプロトタイプベースCL法は,ガウスノイズを古いクラスのセントロイドに付加することにより,古い知識再生のための擬似特徴を生成する。
本稿では,ガウス混合モデルを用いて,従来の知識の特徴分布に正確に適合する分散レベルメモリリコール法を提案する。
論文 参考訳(メタデータ) (2024-08-04T07:37:12Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation [14.639340916340801]
年齢推定タスクは、画像中の顔の特徴を分析して、個人の年齢を予測することを目的としている。
既存のCLIPベースの年齢推定手法では、高いメモリ使用量が必要であり、エラーフィードバック機構が欠如している。
逆年齢推定(CILF-CIAE)のための新しいCLIP駆動画像言語融合法を提案する。
論文 参考訳(メタデータ) (2023-12-04T09:35:36Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - Pluralistic Aging Diffusion Autoencoder [63.50599304294062]
顔の老化は、複数のプラプシブルな老化パターンが与えられた入力に対応する可能性があるため、不適切な問題である。
本稿では,CLIP駆動型多言語時効拡散オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:20:14Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association [94.7030305679589]
上記の課題を共同で解決するための新しい枠組みを提案します。
我々はモダリティアライメントプロセスにグローバル損失を導入する。
提案メソッドは、複数の設定で以前の方法よりも優れています。
論文 参考訳(メタデータ) (2021-03-12T14:10:48Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。