論文の概要: CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised
learning of speech representations
- arxiv url: http://arxiv.org/abs/2210.02592v1
- Date: Wed, 5 Oct 2022 22:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:18:22.546502
- Title: CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised
learning of speech representations
- Title(参考訳): CCC-wav2vec 2.0:クラスタリング支援による音声表現のクロスコントラスト自己教師型学習
- Authors: Vasista Sai Lodagala and Sreyan Ghosh and S. Umesh
- Abstract要約: 本稿では,クラスタリングと拡張に基づくクロスコントラスト損失を自己管理対象とする,ccc-wav2vec 2.0という新たな事前学習戦略を提案する。
ccc-wav2vec 2.0は、言語モデルを用いることなく、それぞれLibriSpeechのテストクリーンおよびテスト他のセットのベースラインwav2vec 2.0に対する15.6%と12.7%の相対的なWER改善を実現している。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Self-Supervised Learning has helped reap the benefit of the scale from
the available unlabeled data, the learning paradigms are continuously being
bettered. We present a new pre-training strategy named ccc-wav2vec 2.0, which
uses clustering and an augmentation-based cross-contrastive loss as its
self-supervised objective. Through the clustering module, we scale down the
influence of those negative examples that are highly similar to the positive.
The Cross-Contrastive loss is computed between the encoder output of the
original sample and the quantizer output of its augmentation and vice-versa,
bringing robustness to the pre-training strategy. ccc-wav2vec 2.0 achieves up
to 15.6% and 12.7% relative WER improvement over the baseline wav2vec 2.0 on
the test-clean and test-other sets, respectively, of LibriSpeech, without the
use of any language model. The proposed method also achieves up to 14.9%
relative WER improvement over the baseline wav2vec 2.0 when fine-tuned on
Switchboard data. We make all our codes publicly available on GitHub.
- Abstract(参考訳): Self-Supervised Learningは、利用可能なラベルなしデータからスケールのメリットを得るのに役立ちましたが、学習パラダイムは継続的に改善されています。
本稿では,クラスタリングと拡張に基づくクロスコントラスト損失を自己管理対象とする,ccc-wav2vec 2.0という新たな事前学習戦略を提案する。
クラスタリングモジュールを通じて、ポジティブと非常によく似た否定的な例の影響をスケールダウンします。
クロスコントラスト損失は、元のサンプルのエンコーダ出力と、その増大と逆転の量子化器出力との間に計算され、事前学習戦略に堅牢性をもたらす。
ccc-wav2vec 2.0は、librispeechのベースラインであるwav2vec 2.0よりも15.6%と12.7%の改善を達成している。
提案手法は,Switchboardデータに微調整を施すと,ベースラインwav2vec 2.0よりも14.9%の相対的なWER改善を実現する。
すべてのコードをgithubで公開しています。
関連論文リスト
- Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Cluster-guided Contrastive Graph Clustering Network [53.16233290797777]
クラスタ誘導コントラストグラフクラスタリングネットワーク(CCGC)を提案する。
我々は、兄弟のサブネットワーク間で重みが共有されない特別なシームズエンコーダを設計することにより、グラフの2つのビューを構築する。
意味的な負のサンプルペアを構築するために、異なる高信頼度クラスタの中心を負のサンプルとみなす。
論文 参考訳(メタデータ) (2023-01-03T13:42:38Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - C3: Cross-instance guided Contrastive Clustering [8.953252452851862]
クラスタリングは、事前に定義されたラベルを使わずに、類似したデータサンプルをクラスタに収集するタスクである。
我々は,新しいコントラストクラスタリング手法であるクロスインスタンスガイドコントラストクラスタリング(C3)を提案する。
提案手法は、ベンチマークコンピュータビジョンデータセット上で最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2022-11-14T06:28:07Z) - data2vec-aqc: Search for the right Teaching Assistant in the
Teacher-Student training setup [1.2031796234206138]
我々は、Data2vec-aqcと呼ばれる新しい自己教師付き学習(SSL)アルゴリズムを提案する。
我々の目標は、ラベル付きデータとラベル付きデータの両方が制限されたドメインにおける音声のSSLを改善することです。
論文 参考訳(メタデータ) (2022-11-02T16:29:59Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Supervised Contrastive Learning [42.27949000093086]
我々は、自己教師付きバッチコントラストアプローチを完全教師付き設定に拡張する。
教師付きコントラスト(SupCon)損失の2つの可能なバージョンを分析し,損失の最も優れた定式化を同定した。
ResNet-200では、ImageNetデータセットでトップ1の精度が81.4%に達しています。
論文 参考訳(メタデータ) (2020-04-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。