論文の概要: Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling
- arxiv url: http://arxiv.org/abs/2501.17772v1
- Date: Wed, 29 Jan 2025 17:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:52.426530
- Title: Self-Supervised Frameworks for Speaker Verification via Bootstrapped Positive Sampling
- Title(参考訳): Bootstrapped Positive Smplingによる話者検証のための自己監督型フレームワーク
- Authors: Theo Lepage, Reda Dehak,
- Abstract要約: 本稿では、話者検証(SV)のための自己監視学習(SSL)フレームワークにおいて、適切な、多様な正をサンプリングする自己監視陽性サンプリング(SSPS)について紹介する。
SSPSは、SimCLR、SwaV、VICReg、DINOといった主要なSSLフレームワークで実装されたVoxCelebベンチマークで、SVパフォーマンスが一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent developments in Self-Supervised Learning (SSL) have demonstrated significant potential for Speaker Verification (SV), but closing the performance gap with supervised systems remains an ongoing challenge. Standard SSL frameworks rely on anchor-positive pairs extracted from the same audio utterances. Hence, positives have channel characteristics similar to those of their corresponding anchors, even with extensive data-augmentation. Therefore, this positive sampling strategy is a fundamental limitation as it encodes too much information regarding the recording source in the learned representations. This article introduces Self-Supervised Positive Sampling (SSPS), a bootstrapped technique for sampling appropriate and diverse positives in SSL frameworks for SV. SSPS samples positives close to their anchor in the representation space, as we assume that these pseudo-positives belong to the same speaker identity but correspond to different recording conditions. This method demonstrates consistent improvements in SV performance on VoxCeleb benchmarks when implemented in major SSL frameworks, such as SimCLR, SwAV, VICReg, and DINO. Using SSPS, SimCLR, and DINO achieve 2.57% and 2.53% EER on VoxCeleb1-O. SimCLR yields a 58% relative reduction in EER, getting comparable performance to DINO with a simpler training framework. Furthermore, SSPS lowers intra-class variance and reduces channel information in speaker representations while exhibiting greater robustness without data-augmentation.
- Abstract(参考訳): 自己監視学習(SSL)の最近の進歩は話者検証(SV)に大きな可能性を示しているが、教師付きシステムによる性能ギャップを埋めることは現在も進行中の課題である。
標準SSLフレームワークは、同じ音声発話から抽出されたアンカー陽性ペアに依存している。
したがって、正は対応するアンカーと同様のチャネル特性を持つ。
したがって、この正のサンプリング戦略は、学習した表現中の記録源に関する情報を符号化しすぎているため、基本的な制限となる。
この記事では、SV用のSSLフレームワークにおいて、適切な、多様な陽性をサンプリングするためのブートストラップ技術であるセルフスーパービジョンポジティヴサンプリング(SSPS)を紹介します。
SSPSは、これらの擬陽性が同一話者アイデンティティに属するが、異なる記録条件に対応していると仮定して、表現空間のアンカーに近い正のサンプルをサンプリングする。
この方法は、SimCLR、SwaV、VICReg、DINOといった主要なSSLフレームワークで実装されたVoxCelebベンチマーク上でのSVパフォーマンスが一貫した改善を示している。
SSPS、SimCLR、DINOはVoxCeleb1-O上で2.57%と2.53%のEERを達成した。
SimCLRは、EERを58%削減し、より単純なトレーニングフレームワークでDINOに匹敵するパフォーマンスを得る。
さらに、SSPSはクラス内のばらつきを低減し、話者表現におけるチャネル情報を削減するとともに、データ拡張なしでより堅牢性を示す。
関連論文リスト
- Clustering Properties of Self-Supervised Learning [14.756786256090704]
自己教師付き学習(SSL)法は、強力なクラスタリング特性を持つ意味的にリッチな表現を捉えるのに極めて効果的であることが証明されている。
本稿では,自己指導型学習を促進するためにモデルのクラスタリング特性を活用する,Representation Soft Assignment (ReSA) と呼ばれる新しい正フィードバックSSL手法を提案する。
論文 参考訳(メタデータ) (2025-01-30T16:05:35Z) - Contrastive Learning with Synthetic Positives [11.932323457691945]
近隣住民との対比学習は、最も効率的な自己教師付き学習(SSL)技術の1つであることが証明されている。
本稿では,NCLP(Contrastive Learning with Synthetic Positives)という新しいアプローチを提案する。
NCLPは、無条件拡散モデルによって生成された合成画像を利用して、モデルが多様な正から学ぶのに役立つ追加の正として利用する。
論文 参考訳(メタデータ) (2024-08-30T01:47:43Z) - Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。
本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。
提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-04T12:58:19Z) - Additive Margin in Contrastive Self-Supervised Frameworks to Learn Discriminative Speaker Representations [0.0]
正のペアと負のペアをさらに分離するために,SimCLR と MoCo SSL メソッドにおける加算マージン (AM) の重要性を論じる。
SimCLRにこれらの2つの変更を実装することでパフォーマンスが向上し、VoxCeleb1-OのEERは7.85%向上した。
論文 参考訳(メタデータ) (2024-04-23T10:56:58Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。