論文の概要: Augmentation adversarial training for self-supervised speaker
recognition
- arxiv url: http://arxiv.org/abs/2007.12085v3
- Date: Fri, 30 Oct 2020 16:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 13:24:21.265536
- Title: Augmentation adversarial training for self-supervised speaker
recognition
- Title(参考訳): 自己教師型話者認識のための強化対人訓練
- Authors: Jaesung Huh, Hee Soo Heo, Jingu Kang, Shinji Watanabe, Joon Son Chung
- Abstract要約: 話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 49.47756927090593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to train robust speaker recognition models without
speaker labels. Recent works on unsupervised speaker representations are based
on contrastive learning in which they encourage within-utterance embeddings to
be similar and across-utterance embeddings to be dissimilar. However, since the
within-utterance segments share the same acoustic characteristics, it is
difficult to separate the speaker information from the channel information. To
this end, we propose augmentation adversarial training strategy that trains the
network to be discriminative for the speaker information, while invariant to
the augmentation applied. Since the augmentation simulates the acoustic
characteristics, training the network to be invariant to augmentation also
encourages the network to be invariant to the channel information in general.
Extensive experiments on the VoxCeleb and VOiCES datasets show significant
improvements over previous works using self-supervision, and the performance of
our self-supervised models far exceed that of humans.
- Abstract(参考訳): この研究の目的は、話者ラベルなしで堅牢な話者認識モデルを訓練することである。
教師なし話者表現(unsupervised speaker representations)に関する最近の研究は、発話内埋め込みが類似し、発話間埋め込みが類似することを奨励する、対照的な学習に基づいている。
しかし、発話内セグメントは同じ音響特性を持っているため、話者情報をチャンネル情報から分離することは困難である。
そこで本研究では,ネットワークが話者情報に対して識別的になるように訓練し,適用される拡張性に不変な強化学習戦略を提案する。
拡張は音響特性をシミュレートするので、拡張に不変であるようにネットワークを訓練することで、ネットワークが一般にチャネル情報に不変になるように促す。
voxcelebとvoicesデータセットに関する広範な実験では、従来のセルフスーパービジョンによる作業よりも大幅に改善されています。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。