論文の概要: data2vec-aqc: Search for the right Teaching Assistant in the
Teacher-Student training setup
- arxiv url: http://arxiv.org/abs/2211.01246v2
- Date: Sat, 13 May 2023 21:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 00:25:03.892490
- Title: data2vec-aqc: Search for the right Teaching Assistant in the
Teacher-Student training setup
- Title(参考訳): data2vec-aqc:Teacher-Studentトレーニング設定における適切な教師アシスタントの探索
- Authors: Vasista Sai Lodagala and Sreyan Ghosh and S. Umesh
- Abstract要約: 我々は、Data2vec-aqcと呼ばれる新しい自己教師付き学習(SSL)アルゴリズムを提案する。
我々の目標は、ラベル付きデータとラベル付きデータの両方が制限されたドメインにおける音声のSSLを改善することです。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new Self-Supervised Learning (SSL) algorithm
called data2vec-aqc, for speech representation learning from unlabeled speech
data. Our goal is to improve SSL for speech in domains where both unlabeled and
labeled data are limited. Building on the recently introduced data2vec, we
introduce additional modules to the data2vec framework that leverage the
benefit of data augmentations, quantized representations, and clustering. The
interaction between these modules helps solve the cross-contrastive loss as an
additional self-supervised objective. data2vec-aqc achieves up to 14.1% and
20.9% relative WER improvement over the existing state-of-the-art data2vec
system over the test-clean and test-other sets, respectively of LibriSpeech,
without the use of any language model (LM). Our proposed model also achieves up
to 17.8\% relative WER gains over the baseline data2vec when fine-tuned on a
subset of the Switchboard dataset. Code:
https://github.com/Speech-Lab-IITM/data2vec-aqc.
- Abstract(参考訳): 本稿では、ラベルなし音声データから音声表現学習を行うための、Data2vec-aqcと呼ばれる新しい自己教師付き学習アルゴリズムを提案する。
我々の目標は、ラベル付きデータとラベル付きデータの両方が制限されたドメインにおける音声のSSLを改善することです。
最近導入されたdata2vecをベースに、データ拡張、量子化表現、クラスタリングの恩恵を受けるdata2vecフレームワークに追加のモジュールを導入しました。
これらのモジュール間の相互作用は、追加の自己監督目的として相互競合損失を解決するのに役立つ。
data2vec-aqc は librispeech の既存の state-the-art data2vec システムよりも 14.1% と 20.9% の改善を達成している。
提案モデルでは,Switchboardデータセットのサブセットを微調整すると,ベースラインの data2vec に対して最大17.8\% の相対的な WER ゲインが得られる。
コード: https://github.com/speech-lab-iitm/data2vec-aqc。
関連論文リスト
- MaskMatch: Boosting Semi-Supervised Learning Through Mask Autoencoder-Driven Feature Learning [8.255082589733673]
algoは、ラベルのないデータを完全に活用して、半教師付き学習を促進する新しいアルゴリズムである。
algoは自己教師型学習戦略、すなわちMasked Autoencoder(MAE)を統合する。
アルゴは、挑戦的なデータセットでそれぞれ18.71%、9.47%、3.07%の低いエラー率を達成する。
論文 参考訳(メタデータ) (2024-05-10T03:39:54Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - More Speaking or More Speakers? [17.143456510764576]
自己学習(ST)と自己教師型学習(SSL)の手法は、音声認識(ASR)の大幅な改善を証明している。
本研究では、最近のSSLアルゴリズム(wav2vec 2.0)と最近のSTアルゴリズム(slimIPL)に対するトレーニングデータにおける話者数の影響を分析することを目的とする。
以上の結果から, SSL は精度の高いデータを生成するために大量のラベル付きデータを必要とするが, ST はラベル付きデータ, 特に低登録環境では十分な数の話者を必要とすることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T03:50:40Z) - CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised
learning of speech representations [1.2031796234206138]
本稿では,クラスタリングと拡張に基づくクロスコントラスト損失を自己管理対象とする,ccc-wav2vec 2.0という新たな事前学習戦略を提案する。
ccc-wav2vec 2.0は、言語モデルを用いることなく、それぞれLibriSpeechのテストクリーンおよびテスト他のセットのベースラインwav2vec 2.0に対する15.6%と12.7%の相対的なWER改善を実現している。
論文 参考訳(メタデータ) (2022-10-05T22:44:35Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - W2v-BERT: Combining Contrastive Learning and Masked Language Modeling
for Self-Supervised Speech Pre-Training [49.47516627019855]
w2v-BERTは、コントラスト学習と事前教師付き音声認識を組み合わせたフレームワークである。
実験の結果,w2v-BERTは現在の最先端の事前訓練モデルと比較して,競争力のある結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-08-07T06:29:36Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。