論文の概要: Clustering-based hard negative sampling for supervised contrastive speaker verification
- arxiv url: http://arxiv.org/abs/2507.17540v1
- Date: Wed, 23 Jul 2025 14:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.03991
- Title: Clustering-based hard negative sampling for supervised contrastive speaker verification
- Title(参考訳): 教師付きコントラスト話者検証のためのクラスタリングに基づくハード負サンプリング
- Authors: Piotr Masztalski, Michał Romaniuk, Jakub Żak, Mateusz Matuszewski, Konrad Kowalczyk,
- Abstract要約: CHNSは、教師付きコントラスト話者表現学習専用のクラスタリングに基づくハードネガティブサンプリング手法である。
提案手法では, 類似話者のクラスタ化を行い, バッチ構成を調整し, 難易度と難易度との最適比を求める。
実験により,CHNSは損失ベースによるハードネガティブサンプリングを伴わずとも,ベースラインを監督するコントラスト的アプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 14.401580929768127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In speaker verification, contrastive learning is gaining popularity as an alternative to the traditionally used classification-based approaches. Contrastive methods can benefit from an effective use of hard negative pairs, which are different-class samples particularly challenging for a verification model due to their similarity. In this paper, we propose CHNS - a clustering-based hard negative sampling method, dedicated for supervised contrastive speaker representation learning. Our approach clusters embeddings of similar speakers, and adjusts batch composition to obtain an optimal ratio of hard and easy negatives during contrastive loss calculation. Experimental evaluation shows that CHNS outperforms a baseline supervised contrastive approach with and without loss-based hard negative sampling, as well as a state-of-the-art classification-based approach to speaker verification by as much as 18 % relative EER and minDCF on the VoxCeleb dataset using two lightweight model architectures.
- Abstract(参考訳): 話者検証では、伝統的に用いられてきた分類に基づくアプローチに代わるものとして、コントラスト学習が人気を集めている。
対照的な手法は、特に類似性から検証モデルにおいて困難であるクラス別サンプルである強負対の効果的な利用の恩恵を受けることができる。
本稿では,クラスタリングに基づくハードネガティブサンプリング手法であるCHNSを提案する。
提案手法では, 類似話者のクラスタ埋め込みを行い, バッチ合成を調整し, 対照的な損失計算を行う際に, 難易度と難易度との最適比を求める。
実験により,CHNSは2つの軽量モデルアーキテクチャを用いたVoxCelebデータセット上の18%の相対EERとminDCFの話者検証に対する最先端の分類に基づくアプローチと同様に,損失ベースのハードネガティブサンプリングによるベースライン監督的アプローチよりも優れていることが示された。
関連論文リスト
- Large Language Model Enhanced Hard Sample Identification for Denoising Recommendation [4.297249011611168]
暗黙のフィードバックは、しばしばレコメンデーションシステムを構築するために使われる。
従来の研究では、分散したパターンに基づいてノイズの多いサンプルを識別することで、これを緩和しようと試みてきた。
大規模言語モデル強化型ハードサンプルデノゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T14:57:09Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
セマンティックな一貫性を維持しつつ,サンプル単位のロジットアライメントを実現するコントラッシブな知識蒸留フレームワークを提案する。
提案手法は,教師と教師の対照的アライメントを通じて「暗黒知識」をサンプルレベルで伝達する。
CIFAR-100、ImageNet-1K、MS COCOデータセットを含む3つのベンチマークデータセットの総合的な実験を行う。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast [34.58856143210749]
同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
これまでの研究では、音声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクが用いられてきた。
比較手法を生かし, 偽陰性の悪影響に抵抗し, 正の逸脱に抵抗するクロスモーダル・プロトタイプ・コントラッシブ・ラーニング(CMPC)を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:28:56Z) - Adversarial Contrastive Learning by Permuting Cluster Assignments [0.8862707047517914]
本稿では、クラスタ割り当ての置換を組み込んだ対向的コントラストフレームワークであるSwARoを提案し、代表対向的なサンプルを生成する。
複数のベンチマークデータセットと様々なホワイトボックスやブラックボックス攻撃に対するSwARoの評価を行い、最先端のベースラインに対する一貫した改善を得た。
論文 参考訳(メタデータ) (2022-04-21T17:49:52Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。