論文の概要: Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning
- arxiv url: http://arxiv.org/abs/2207.05506v1
- Date: Tue, 12 Jul 2022 13:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 15:49:58.410306
- Title: Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning
- Title(参考訳): 情報最大化とコントラスト学習によるラベル有効自己監督話者検証
- Authors: Th\'eo Lepage and R\'eda Dehak
- Abstract要約: 生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art speaker verification systems are inherently dependent on
some kind of human supervision as they are trained on massive amounts of
labeled data. However, manually annotating utterances is slow, expensive and
not scalable to the amount of data available today. In this study, we explore
self-supervised learning for speaker verification by learning representations
directly from raw audio. The objective is to produce robust speaker embeddings
that have small intra-speaker and large inter-speaker variance. Our approach is
based on recent information maximization learning frameworks and an intensive
data augmentation pre-processing step. We evaluate the ability of these methods
to work without contrastive samples before showing that they achieve better
performance when combined with a contrastive loss. Furthermore, we conduct
experiments to show that our method reaches competitive results compared to
existing techniques and can get better performances compared to a supervised
baseline when fine-tuned with a small portion of labeled data.
- Abstract(参考訳): 最先端の話者検証システムは、大量のラベル付きデータに基づいてトレーニングされるため、本質的に何らかの人間の監督に依存しています。
しかし、手動でアノテートする発話は遅く、高価であり、現在利用可能なデータ量にはスケーラビリティがない。
本研究では,生音声から直接表現を学習する話者検証のための自己教師型学習について検討する。
目的は、小さな話者内分散と大きな話者間分散を持つロバストな話者埋め込みを作ることである。
我々のアプローチは、最近の情報最大化学習フレームワークと集中的なデータ拡張前処理ステップに基づいている。
比較サンプルを使わずにこれらの手法が動作できることを評価し, 比較損失と組み合わせることで, 性能が向上することを示す。
さらに,提案手法が既存の手法に比べて競争力のある結果が得られることを示す実験を行い,ラベル付きデータのごく一部で微調整した場合の教師付きベースラインよりも優れた性能を得ることができた。
関連論文リスト
- Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。