論文の概要: Self-Supervised Speaker Verification with Simple Siamese Network and
Self-Supervised Regularization
- arxiv url: http://arxiv.org/abs/2112.04459v1
- Date: Wed, 8 Dec 2021 18:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 16:42:38.543294
- Title: Self-Supervised Speaker Verification with Simple Siamese Network and
Self-Supervised Regularization
- Title(参考訳): 単純なシームズネットワークと自己教師付き正規化による自己教師付き話者検証
- Authors: Mufan Sang, Haoqi Li, Fang Liu, Andrew O. Arnold, Li Wan
- Abstract要約: 本稿では,自己教師型話者表現学習を支援するための,効果的な自己教師型学習フレームワークと新たな正規化戦略を提案する。
我々の強力なオンラインデータ拡張戦略により、提案したSSRegは、負のペアを使わずに自己教師型学習の可能性を示している。
VoxCelebデータセットに関する総合的な実験は、提案した自己教師型アプローチが23.4%の相対的な改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 12.892376738542383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training speaker-discriminative and robust speaker verification systems
without speaker labels is still challenging and worthwhile to explore. In this
study, we propose an effective self-supervised learning framework and a novel
regularization strategy to facilitate self-supervised speaker representation
learning. Different from contrastive learning-based self-supervised learning
methods, the proposed self-supervised regularization (SSReg) focuses
exclusively on the similarity between the latent representations of positive
data pairs. We also explore the effectiveness of alternative online data
augmentation strategies on both the time domain and frequency domain. With our
strong online data augmentation strategy, the proposed SSReg shows the
potential of self-supervised learning without using negative pairs and it can
significantly improve the performance of self-supervised speaker representation
learning with a simple Siamese network architecture. Comprehensive experiments
on the VoxCeleb datasets demonstrate that our proposed self-supervised approach
obtains a 23.4% relative improvement by adding the effective self-supervised
regularization and outperforms other previous works.
- Abstract(参考訳): 話者識別性とロバストな話者照合システムを話者ラベルなしでトレーニングすることは、いまだに難題であり、検討に値する。
本研究では,効果的な自己教師付き学習フレームワークと,自己教師付き話者表現学習を容易にする新しい正規化戦略を提案する。
対照的な学習に基づく自己教師あり学習法とは異なり、提案する自己教師あり正規化(SSReg)は、正のデータ対の潜在表現の類似性にのみ焦点をあてる。
また、時間領域と周波数領域の両方において、代替オンラインデータ拡張戦略の有効性について検討する。
提案するssregは,オンラインデータ拡張戦略の強化により,負のペアを使わずに自己教師付き学習の可能性を示すとともに,単純なsiameseネットワークアーキテクチャを用いて,自己教師付き話者表現学習の性能を大幅に向上させることができる。
VoxCelebデータセットに関する総合的な実験により、提案した自己教師型アプローチは、効果的な自己教師型正規化を加えて23.4%の相対的な改善を達成し、他の先行研究を上回った。
関連論文リスト
- A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Bootstrap Equilibrium and Probabilistic Speaker Representation Learning
for Self-supervised Speaker Verification [15.652180150706002]
本稿では,自己教師型話者表現学習戦略を提案する。
フロントエンドでは,一様正規化項を用いたブートストラップ学習方式を用いて話者表現を学習する。
バックエンドでは、同一話者に属する音声サンプル間の相互確率スコアを最大化することにより、確率的話者埋め込みを推定する。
論文 参考訳(メタデータ) (2021-12-16T14:55:44Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - CLAR: Contrastive Learning of Auditory Representations [6.1424670675582576]
聴覚データに適した様々なデータ拡張を導入し、予測性能への影響を評価する。
時間周波数音声特徴を用いた学習は,学習した表現の質を大幅に向上させることを示す。
これらの手法とラベル付きデータとを併用することにより,予測性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T14:15:31Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Improving out-of-distribution generalization via multi-task
self-supervised pretraining [48.29123326140466]
我々は,自己教師付き学習を用いて得られた特徴が,コンピュータビジョンにおける領域一般化のための教師付き学習に匹敵するか,それより優れていることを示す。
本稿では,Gaborフィルタバンクに対する応答を予測するための自己教師型プレテキストタスクを提案する。
論文 参考訳(メタデータ) (2020-03-30T14:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。