論文の概要: Koopman Regularized Deep Speech Disentanglement for Speaker Verification
- arxiv url: http://arxiv.org/abs/2603.05577v1
- Date: Thu, 05 Mar 2026 17:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.288416
- Title: Koopman Regularized Deep Speech Disentanglement for Speaker Verification
- Title(参考訳): 話者検証のためのコープマン正規化深層音声ディスタングル
- Authors: Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine Evers,
- Abstract要約: DKSD-AE(Deep Koopman Speech Disentanglement Autoencoder)
本稿では,複数ステップのKoopman演算子学習モジュールとインスタンス正規化を組み合わせた構造化オートエンコーダを提案する。
この結果から,コープマンに基づく時間モデルと実例正規化を組み合わせることで,話者中心の表現学習における効率的かつ原理的な解が得られることが示唆された。
- 参考スコア(独自算出の注目度): 6.659299099827954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human speech contains both linguistic content and speaker dependent characteristics making speaker verification a key technology in identity critical applications. Modern deep learning speaker verification systems aim to learn speaker representations that are invariant to semantic content and nuisance factors such as ambient noise. However, many existing approaches depend on labelled data, textual supervision or large pretrained models as feature extractors, limiting scalability and practical deployment, raising sustainability concerns. We propose Deep Koopman Speech Disentanglement Autoencoder (DKSD-AE), a structured autoencoder that combines a novel multi-step Koopman operator learning module with instance normalization to disentangle speaker and content dynamics. Quantitative experiments across multiple datasets demonstrate that DKSD-AE achieves improved or competitive speaker verification performance compared to state-of-the-art baselines while maintaining high content EER, confirming effective disentanglement. These results are obtained with substantially fewer parameters and without textual supervision. Moreover, performance remains stable under increased evaluation scale, highlighting representation robustness and generalization. Our findings suggest that Koopman-based temporal modelling, when combined with instance normalization, provides an efficient and principled solution for speaker-focused representation learning.
- Abstract(参考訳): ヒューマンスピーチには言語内容と話者依存特性の両方が含まれており、話者検証はアイデンティティクリティカルな応用において重要な技術である。
現代のディープラーニング話者検証システムは、セマンティックコンテンツに不変な話者表現と、環境騒音などのニュアンス要因を学習することを目的としている。
しかし、既存の多くのアプローチは、ラベル付きデータ、テキストの監視、あるいは大きな事前訓練されたモデルを特徴抽出器として依存し、スケーラビリティと実践的なデプロイメントを制限し、持続可能性に関する懸念を高める。
本稿では,新しいマルチステップのKoopman演算子学習モジュールと,アンタングル話者とコンテンツダイナミクスとの例正規化を組み合わせた構造化オートエンコーダであるDeep Koopman Speech Disentanglement Autoencoder (DKSD-AE)を提案する。
複数のデータセットにわたる定量的実験により、DKSD-AEは、最先端のEERを維持しながら、最先端のベースラインと比較して改善または競争力のある話者検証性能を達成し、効果的に絡み合っていることを確認した。
これらの結果はかなり少ないパラメータで得られた。
さらに、性能は評価尺度の増大の下で安定であり、表現の堅牢性や一般化が強調される。
この結果から,コープマンに基づく時間モデルと実例正規化を組み合わせることで,話者中心の表現学習における効率的かつ原理的な解が得られることが示唆された。
関連論文リスト
- DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-10-20T15:35:55Z) - Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。