論文の概要: DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model
- arxiv url: http://arxiv.org/abs/2510.17662v1
- Date: Mon, 20 Oct 2025 15:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.505159
- Title: DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model
- Title(参考訳): DELULU:話者認識型自己監督音声基礎モデルにおける潜在単位を用いた識別的埋め込み学習
- Authors: Massa Baali, Rita Singh, Bhiksha Raj,
- Abstract要約: DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 65.93900011975238
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised speech models have achieved remarkable success on content-driven tasks, yet they remain limited in capturing speaker-discriminative features critical for verification, diarization, and profiling applications. We introduce DELULU, a speaker-aware self-supervised foundational model that addresses this limitation by integrating external supervision into the pseudo-label generation process. DELULU leverages frame-level embeddings from ReDimNet, a state-of-the-art speaker verification model, to guide the k-means clustering step during pre-training, introducing a strong speaker-discriminative inductive bias that aligns representation learning with speaker identity. The model is trained using a dual objective that combines masked prediction and denoising, further enhancing robustness and generalization. DELULU significantly outperforms prior self-supervised learning (SSL) models across a range of speaker-centric tasks, achieving up to 62% relative improvement in equal error rate (EER) for speaker verification and consistent gains on zero-shot profiling tasks such as gender, age, accent, and speaker counting. Our findings demonstrate that DELULU is a strong universal encoder for speaker-aware speech processing, enabling superior performance even without task-specific fine-tuning.
- Abstract(参考訳): 自己監督型音声モデルは、コンテンツ駆動型タスクにおいて顕著な成功を収めてきたが、検証、ダイアリゼーション、プロファイリングアプリケーションに不可欠な話者識別的特徴を捉えることにはまだ限界がある。
我々は、この制限に対処し、外部監督を擬似ラベル生成プロセスに統合することで、話者認識型自己監督基盤モデルであるDELULUを紹介する。
DELULUは、最先端の話者検証モデルであるReDimNetのフレームレベルの埋め込みを活用して、事前トレーニング中のk平均クラスタリングステップをガイドし、表現学習と話者識別を整合させる強力な話者識別帰納バイアスを導入する。
このモデルは、マスク付き予測と妄想を組み合わせた二重目的を用いて訓練され、堅牢性と一般化をさらに強化する。
DELULUは、話者中心のタスクにおける事前の自己教師学習(SSL)モデルよりも大幅に優れており、話者検証のための等エラー率(EER)が最大62%向上し、性別、年齢、アクセント、話者カウントといったゼロショットプロファイリングタスクにおいて一貫した利得が得られる。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
関連論文リスト
- Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling [4.875137823752148]
本研究は、ターゲット話者の埋め込みを自動的に識別し、発話分離とダイアリゼーションを同時に行うための新しいアプローチを導入する。
提案モデルでは,頑健な話者表現特徴を学習するための2段階学習パイプラインを採用している。
重なり合う音声フレームにおけるダイアリゼーション精度を高めるために, 重なり合うスペクトル損失関数を提案する。
論文 参考訳(メタデータ) (2025-08-08T15:24:10Z) - TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models [43.761503775097104]
対象話者音声処理ユニバーサルパフォーマンスベンチマーク(TS-SUPERB)を導入する。
このベンチマークには、広く認識されている4つのターゲットスピーカー処理タスクが含まれている。
入力音声から抽出した話者埋め込みは、下流モデルの条件付けの手がかりとして用いられる。
論文 参考訳(メタデータ) (2025-05-10T14:23:37Z) - Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。