論文の概要: Non-Contrastive Self-supervised Learning for Utterance-Level Information
Extraction from Speech
- arxiv url: http://arxiv.org/abs/2208.05445v1
- Date: Wed, 10 Aug 2022 16:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:43:14.344505
- Title: Non-Contrastive Self-supervised Learning for Utterance-Level Information
Extraction from Speech
- Title(参考訳): 発話レベル情報抽出のための非連続的自己教師付き学習
- Authors: Jaejin Cho, Jes'us Villalba, Laureano Moro-Velazquez, Najim Dehak
- Abstract要約: 発話レベルの音声表現の自己教師付き学習(SSL)は、音声アプリケーションで使用することができる。
本稿では,非コントラスト型自己教師手法を適用し,発話レベルの埋め込みを学習する。
- 参考スコア(独自算出の注目度): 32.058337220323146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent studies, self-supervised pre-trained models tend to outperform
supervised pre-trained models in transfer learning. In particular,
self-supervised learning (SSL) of utterance-level speech representation can be
used in speech applications that require discriminative representation of
consistent attributes within an utterance: speaker, language, emotion, and age.
Existing frame-level self-supervised speech representation, e.g., wav2vec, can
be used as utterance-level representation with pooling, but the models are
usually large. There are also SSL techniques to learn utterance-level
representation. One of the most successful is a contrastive method, which
requires negative sampling: selecting alternative samples to contrast with the
current sample (anchor). However, this does not ensure that all the negative
samples belong to classes different from the anchor class without labels. This
paper applies a non-contrastive self-supervised method to learn utterance-level
embeddings. We adapted DIstillation with NO labels (DINO) from computer vision
to speech. Unlike contrastive methods, DINO does not require negative sampling.
We compared DINO to x-vector trained in a supervised manner. When transferred
to down-stream tasks (speaker verification, speech emotion recognition (SER),
and Alzheimer's disease detection), DINO outperformed x-vector. We studied the
influence of several aspects during transfer learning such as dividing the
fine-tuning process into steps, chunk lengths, or augmentation. During
fine-tuning, tuning the last affine layers first and then the whole network
surpassed fine-tuning all at once. Using shorter chunk lengths, although they
generate more diverse inputs, did not necessarily improve performance, implying
speech segments at least with a specific length are required for better
performance per application. Augmentation was helpful in SER.
- Abstract(参考訳): 近年の研究では、自己教師付き事前学習モデルは、伝達学習において教師付き事前学習モデルより優れている傾向にある。
特に、発話レベルの音声表現の自己教師付き学習(ssl)は、発話中の一貫した属性(話者、言語、感情、年齢)の識別表現を必要とする音声アプリケーションで使用できる。
既存のフレームレベルの自己教師付き音声表現(例えばwav2vec)は、プール付き発話レベルの表現として使用できるが、モデルは通常大きい。
発話レベルの表現を学ぶssl技術もある。
最も成功した方法の1つは、負のサンプリングを必要とする対照的な方法である: 現在のサンプル(アンカー)と対照的に代替サンプルを選択する。
しかし、これは全ての負のサンプルがラベルなしでアンカークラスとは異なるクラスに属していることを保証する。
本稿では,非コントラスト型自己教師手法を適用し,発話レベルの埋め込みを学習する。
我々はコンピュータビジョンから音声へ、NOラベル(DINO)でDistillationを適応した。
対照的な方法とは異なり、DINOは負のサンプリングを必要としない。
我々はDINOとx-vectorを指導的に訓練した。
下流タスク(話者検証、音声感情認識(SER)、アルツハイマー病検出)に移行すると、DINOはx-vectorより優れていた。
転校学習における諸側面の影響について検討し, 微調整過程をステップ, チャンク長, 強化に分割した。
微調整の間、最後に最後のアフィン層をチューニングし、次にネットワーク全体が同時に微調整を超えた。
より短いチャンク長を使用すると、より多様な入力が生成されるが、必ずしもパフォーマンスが向上するとは限らない。
増強はSERで有効であった。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Non-Contrastive Self-Supervised Learning of Utterance-Level Speech
Representations [37.665503758394934]
本稿では, 発話レベルの埋め込みを学習するために, ラベル付き音声コーパスに対して, 非コントラスト型自己教師学習法を適用した。
対照的な方法とは異なり、DINOは負のサンプリングを必要としない。
これらの埋め込みは話者の検証と感情認識に基づいて評価された。
論文 参考訳(メタデータ) (2022-08-10T16:04:23Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Adversarial Training with Contrastive Learning in NLP [0.0]
本稿では,言語処理タスクを逆学習するために,比較学習(ATCL)を用いた逆学習を提案する。
中心となる考え方は、高速勾配法(FGM)によって入力の埋め込み空間に線形摂動を生じさせ、元の表現と摂動表現を対照的な学習によって密に保つようモデルを訓練することである。
この結果から, 定量的(複雑度, BLEU) のスコアは, ベースラインに比べて向上しただけでなく, 両タスクのセマンティックレベルにおいても, 質的な結果が得られた。
論文 参考訳(メタデータ) (2021-09-19T07:23:45Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。