論文の概要: Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation
- arxiv url: http://arxiv.org/abs/2306.08920v1
- Date: Thu, 15 Jun 2023 07:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:03:15.862038
- Title: Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation
- Title(参考訳): SSL音声表現における教師なし単位探索の限界を押し上げる
- Authors: Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen
- Abstract要約: HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
- 参考スコア(独自算出の注目度): 12.506633315768832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The excellent generalization ability of self-supervised learning (SSL) for
speech foundation models has garnered significant attention. HuBERT is a
successful example that utilizes offline clustering to convert speech features
into discrete units for a masked language modeling pretext task. However,
simply clustering features as targets by k-means does not fully inspire the
model's performance. In this work, we present an unsupervised method to improve
SSL targets. Two models are proposed, MonoBERT and PolyBERT, which leverage
context-independent and context-dependent phoneme-based units for pre-training.
Our models outperform other SSL models significantly on the LibriSpeech
benchmark without the need for iterative re-clustering and re-training.
Furthermore, our models equipped with context-dependent units even outperform
target-improvement models that use labeled data during pre-training. How we
progressively improve the unit discovery process is demonstrated through
experiments.
- Abstract(参考訳): 音声基礎モデルの自己教師型学習(SSL)の優れた一般化能力は注目されている。
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
しかし、k-meansのターゲットとして機能をクラスタリングするだけでは、モデルのパフォーマンスを完全には刺激しない。
本研究ではSSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
我々のモデルは、反復的な再クラスタリングと再トレーニングを必要とせずに、LibriSpeechベンチマークで他のSSLモデルよりも大幅に優れています。
さらに, 事前学習時にラベル付きデータを用いた目標改善モデルよりも, 文脈依存ユニットが優れている。
実験を通じて、単位発見プロセスの段階的な改善を実証する。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - MT4SSL: Boosting Self-Supervised Speech Representation Learning by
Integrating Multiple Targets [6.238268985570237]
我々は,訓練対象の獲得方法から,自己教師型音声モデルに対する新たな視点を提供する。
自己教師型学習のためのマルチタスク学習フレームワークMT4SSLを提案する。
我々のモデルは、LibriSpeechベンチマークにおいて、非自明なマージンで従来のSSLメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-11-14T13:00:47Z) - Towards Sustainable Self-supervised Learning [193.78876000005366]
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2022-10-20T04:49:56Z) - Efficient Gaussian Process Model on Class-Imbalanced Datasets for
Generalized Zero-Shot Learning [37.00463358780726]
本稿では,潜在機能埋め込みを学習するニューラルネットワークモデルと,未確認クラスの潜在機能プロトタイプを予測するガウスプロセス(GP)回帰モデルを提案する。
我々のモデルは、クラス不均衡なトレーニングデータの影響を緩和する単純なトレーニング戦略により、効率的に訓練される。
論文 参考訳(メタデータ) (2022-10-11T04:57:20Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - A Gating Model for Bias Calibration in Generalized Zero-shot Learning [18.32369721322249]
汎用ゼロショット学習(GZSL)は,補助情報のみを用いることで,見つからないクラスデータに一般化できるモデルを訓練することを目的とする。
GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。
GZSLのための2ストリームオートエンコーダに基づくゲーティングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T16:41:06Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。