論文の概要: Non-Contrastive Self-Supervised Learning of Utterance-Level Speech
Representations
- arxiv url: http://arxiv.org/abs/2208.05413v1
- Date: Wed, 10 Aug 2022 16:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:24:57.904649
- Title: Non-Contrastive Self-Supervised Learning of Utterance-Level Speech
Representations
- Title(参考訳): 発話レベル表現の非競合的自己教師付き学習
- Authors: Jaejin Cho, Raghavendra Pappagari, Piotr \.Zelasko, Laureano
Moro-Velazquez, Jes\'us Villalba, Najim Dehak
- Abstract要約: 本稿では, 発話レベルの埋め込みを学習するために, ラベル付き音声コーパスに対して, 非コントラスト型自己教師学習法を適用した。
対照的な方法とは異なり、DINOは負のサンプリングを必要としない。
これらの埋め込みは話者の検証と感情認識に基づいて評価された。
- 参考スコア(独自算出の注目度): 37.665503758394934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Considering the abundance of unlabeled speech data and the high labeling
costs, unsupervised learning methods can be essential for better system
development. One of the most successful methods is contrastive self-supervised
methods, which require negative sampling: sampling alternative samples to
contrast with the current sample (anchor). However, it is hard to ensure if all
the negative samples belong to classes different from the anchor class without
labels. This paper applies a non-contrastive self-supervised learning method on
an unlabeled speech corpus to learn utterance-level embeddings. We used
DIstillation with NO labels (DINO), proposed in computer vision, and adapted it
to the speech domain. Unlike the contrastive methods, DINO does not require
negative sampling. These embeddings were evaluated on speaker verification and
emotion recognition. In speaker verification, the unsupervised DINO embedding
with cosine scoring provided 4.38% EER on the VoxCeleb1 test trial. This
outperforms the best contrastive self-supervised method by 40% relative in EER.
An iterative pseudo-labeling training pipeline, not requiring speaker labels,
further improved the EER to 1.89%. In emotion recognition, the DINO embedding
performed 60.87, 79.21, and 56.98% in micro-f1 score on IEMOCAP, Crema-D, and
MSP-Podcast, respectively. The results imply the generality of the DINO
embedding to different speech applications.
- Abstract(参考訳): ラベルなし音声データの豊富さと高いラベル付けコストを考えると、教師なし学習法はシステム開発に不可欠である。
最も成功した方法の1つは、負のサンプリングを必要とするコントラスト的自己教師あり法である: 現在のサンプル(アンカー)と対照的に代替サンプルをサンプリングする。
しかし、全ての負のサンプルがラベルなしでアンカークラスとは異なるクラスに属していることを保証するのは難しい。
本稿では,ラベルなし音声コーパスに非連続的自己教師あり学習法を適用し,発話レベルの埋め込みを学習する。
コンピュータビジョンで提案したNOラベルを用いたDistillation(DINO)を音声領域に適用した。
対照的な方法とは異なり、DINOは負のサンプリングを必要としない。
これらの埋め込みは話者照合と感情認識で評価された。
話者による検証では、コサインスコアによる教師なしのDINO埋め込みはVoxCeleb1試験で4.38%のEERを与えた。
これはEERにおいて、最もコントラストの高い自己管理手法よりも40%優れています。
話者ラベルを必要としない反復的な擬似ラベルトレーニングパイプラインにより、EERはさらに1.89%向上した。
感情認識において、DINO埋め込みは、IEMOCAP、Crema-D、MSP-Podcastでそれぞれ60.87、79.21、56.98%のマイクロf1スコアを記録した。
この結果は、dino埋め込みを異なる音声応用に一般化することを暗示している。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Adaptive Integration of Partial Label Learning and Negative Learning for
Enhanced Noisy Label Learning [23.847160480176697]
我々はtextbfNPN というシンプルながら強力なアイデアを提案し,このアイデアは textbfNoisy ラベル学習に革命をもたらす。
我々はNLの全ての非候補ラベルを用いて信頼性の高い補完ラベルを生成し、間接的な監督を通じてモデルロバスト性を高める。
合成劣化データセットと実世界の雑音データセットの両方で実施された実験は、他のSOTA法と比較してNPNの優位性を示している。
論文 参考訳(メタデータ) (2023-12-15T03:06:19Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Non-Contrastive Self-supervised Learning for Utterance-Level Information
Extraction from Speech [32.058337220323146]
発話レベルの音声表現の自己教師付き学習(SSL)は、音声アプリケーションで使用することができる。
本稿では,非コントラスト型自己教師手法を適用し,発話レベルの埋め込みを学習する。
論文 参考訳(メタデータ) (2022-08-10T16:56:39Z) - Improving Contrastive Learning of Sentence Embeddings with
Case-Augmented Positives and Retrieved Negatives [17.90820242798732]
教師なしのコントラスト学習手法は、教師付き学習方法よりもはるかに遅れている。
文中のランダムに選択された単語の最初の文字のケースを反転させるスイッチケース拡張を提案する。
負のサンプルについては、事前学習された言語モデルに基づいてデータセット全体からハードネガティブをサンプリングする。
論文 参考訳(メタデータ) (2022-06-06T09:46:12Z) - Context-based Virtual Adversarial Training for Text Classification with
Noisy Labels [1.9508698179748525]
本研究では,テキスト分類器が雑音ラベルに過度に収まらないよう,コンテキストベースの仮想対位訓練(ConVAT)を提案する。
従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。
2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-29T14:19:49Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Multi-Objective Interpolation Training for Robustness to Label Noise [17.264550056296915]
標準教師付きコントラスト学習はラベル雑音の存在下で劣化することを示す。
コントラスト学習により学習したロバストな特徴表現を利用する新しいラベルノイズ検出手法を提案する。
合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2020-12-08T15:01:54Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。