論文の概要: SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification
- arxiv url: http://arxiv.org/abs/2505.14561v1
- Date: Tue, 20 May 2025 16:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.567939
- Title: SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification
- Title(参考訳): SSPS:頑健な自己監督型話者検証のための自己監視型ポジティブサンプリング
- Authors: Theo Lepage, Reda Dehak,
- Abstract要約: 自己監督陽性サンプリング(SSPS)は話者検証のための新しい正のサンプリング手法である。
SSPSはSimCLRとDINOの両方のSVパフォーマンスを改善し、2.57%と2.53%のEERに達した。
SSPSは、話者内分散を低くすることで58%のEER削減を実現し、DINO-SSPSに匹敵する性能を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) has led to considerable progress in Speaker Verification (SV). The standard framework uses same-utterance positive sampling and data-augmentation to generate anchor-positive pairs of the same speaker. This is a major limitation, as this strategy primarily encodes channel information from the recording condition, shared by the anchor and positive. We propose a new positive sampling technique to address this bottleneck: Self-Supervised Positive Sampling (SSPS). For a given anchor, SSPS aims to find an appropriate positive, i.e., of the same speaker identity but a different recording condition, in the latent space using clustering assignments and a memory queue of positive embeddings. SSPS improves SV performance for both SimCLR and DINO, reaching 2.57% and 2.53% EER, outperforming SOTA SSL methods on VoxCeleb1-O. In particular, SimCLR-SSPS achieves a 58% EER reduction by lowering intra-speaker variance, providing comparable performance to DINO-SSPS.
- Abstract(参考訳): 自己監視学習(SSL)は話者検証(SV)に大きな進歩をもたらした。
標準フレームワークは、同じ話者のアンカー陽性対を生成するために、同じ発話陽性サンプリングとデータ拡張を使用する。
この戦略は、主にアンカーとポジティが共有する記録条件からのチャネル情報を符号化するので、これは大きな制限となる。
本稿では,このボトルネックに対処する新たな正のサンプリング手法を提案する。
与えられたアンカーに対して、SSPSは、クラスタリング代入と正の埋め込みのメモリキューを使用して、同じ話者アイデンティティの適切な正、すなわち異なる記録条件を見つけることを目的としている。
SSPSはSimCLRとDINOの両方のSVパフォーマンスを改善し、2.57%と2.53%のEERに達し、VoxCeleb1-OでSOTA SSLメソッドを上回った。
特に、SimCLR-SSPSは、話者内分散を低くすることで58%のEER削減を実現し、DINO-SSPSに匹敵する性能を提供する。
関連論文リスト
- Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling [0.0]
Self-Supervised Positive Smpling (SSPS) は、話者検証(SV)のためのSSLフレームワークにおいて、適切な正と多彩な正をサンプリングするためのブートストラップ技術である。
SSPSは、SimCLR、SwaV、VICReg、DINOといった主要なSSLフレームワークで実装されたVoxCelebベンチマークで、SVパフォーマンスが一貫した改善を実現している。
SSPSは、クラス内のばらつきを低くし、話者表現におけるチャネル情報を減らすと同時に、データ拡張なしでより堅牢性を示す。
論文 参考訳(メタデータ) (2025-01-29T17:08:01Z) - CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing [27.828675312638296]
条件対応自己監視型学習表現(CA-SSLR)を導入する。
CA-S SLRはモデルの能力を向上し、目に見えないタスクに対する一般性を示す。
実験により、CA-S SLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクで優れることが示された。
論文 参考訳(メタデータ) (2024-12-05T18:51:10Z) - Contrastive Learning with Synthetic Positives [11.932323457691945]
PNCL(Contrastive Learning with Synthetic Positives)は、隣人から学ぶための新しいアプローチである。
非条件拡散モデルにより生成された合成画像は、モデルが様々な正から学習するのに役立つ追加の正として使用される。
これらの画像は、アンカー画像の「ハード」陽性と見なされ、コントラスト損失に補足陽性を含むと、線形評価において2%以上、1%以上の性能向上に寄与する。
論文 参考訳(メタデータ) (2024-08-30T01:47:43Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。