論文の概要: MT4SSL: Boosting Self-Supervised Speech Representation Learning by
Integrating Multiple Targets
- arxiv url: http://arxiv.org/abs/2211.07321v1
- Date: Mon, 14 Nov 2022 13:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:18:54.853416
- Title: MT4SSL: Boosting Self-Supervised Speech Representation Learning by
Integrating Multiple Targets
- Title(参考訳): MT4SSL:複数ターゲットの統合による自己監督型音声表現学習の促進
- Authors: Ziyang Ma, Zhisheng Zhen, Changli Tang, Yujin Wang, Xie Chen
- Abstract要約: 我々は,自己学習対象の獲得方法から,自己教師型音声モデルに対する新たな視点を提供する。
自己教師型学習のためのマルチタスク学習フレームワークMT4SSLを提案する。
我々のモデルは、LibriSpeechベンチマークにおいて、非自明なマージンで従来のSSLメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 6.238268985570237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a new perspective on self-supervised speech models
from how the self-training targets are obtained. We generalize the targets
extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor
(On-TE), without caring about specific pretext tasks. Based on this, we propose
a new multi-tasking learning framework for self-supervised learning, MT4SSL,
which stands for Boosting Self-Supervised Speech Representation Learning by
Integrating Multiple Targets. MT4SSL refers to two typical models, HuBERT and
data2vec, which use the K-means algorithm as an Off-TE and a teacher network
without gradients as an On-TE, respectively. Our model outperforms previous SSL
methods by nontrivial margins on the LibriSpeech benchmark, and is comparable
to or even better than the best-performing models with no need for that much
data. Furthermore, we find that using both Off-TE and On-TE results in better
convergence in the pre-training phase. With both effectiveness and efficiency,
we think that doing multi-task learning on self-supervised speech models from
our perspective is a promising trend.
- Abstract(参考訳): 本稿では,自己学習目標の獲得方法から,自己教師付き音声モデルに対する新しい視点を提案する。
ターゲット抽出部をオフラインターゲット抽出部(off-te)とオンラインターゲット抽出部(on-te)に一般化し,特定のプリテキストタスクを気にせずに処理を行う。
そこで,本研究では,自己教師あり学習のためのマルチタスク学習フレームワークであるmt4sslを提案する。
MT4SSL は HuBERT と data2vec の2つの典型的なモデルを指し、K-means アルゴリズムを Off-TE として、教師ネットワークを On-TE として使用する。
我々のモデルは、LibriSpeechベンチマークの非自明なマージンで以前のSSLメソッドより優れており、そのようなデータを必要としない最高のパフォーマンスモデルに匹敵するか、さらに優れている。
さらに,Off-TEとOn-TEの両方を用いることで,事前学習フェーズの収束性が向上することがわかった。
効果と効率の両面で、自己教師付き音声モデルでマルチタスク学習を行うことは有望なトレンドであると考えている。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。