論文の概要: Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.16973v2
- Date: Mon, 4 Apr 2022 12:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 11:12:04.910741
- Title: Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition
- Title(参考訳): 自己教師付き事前学習表現の有用性に影響を及ぼす要因の分析
- Authors: Lodagala V S V Durga Prasad and Ashish Seth and Sreyan Ghosh and S.
Umesh
- Abstract要約: 高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。
ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
- 参考スコア(独自算出の注目度): 1.0705399532413615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) to learn high-level speech representations has
been a popular approach to building Automatic Speech Recognition (ASR) systems
in low-resource settings. However, the common assumption made in literature is
that a considerable amount of unlabeled data is available for the same domain
or language that can be leveraged for SSL pre-training, which we acknowledge is
not feasible in a real-world setting. In this paper, as part of the Interspeech
Gram Vaani ASR challenge, we try to study the effect of domain, language,
dataset size, and other aspects of our upstream pre-training SSL data on the
final performance low-resource downstream ASR task. We also build on the
continued pre-training paradigm to study the effect of prior knowledge
possessed by models trained using SSL. Extensive experiments and studies reveal
that the performance of ASR systems is susceptible to the data used for SSL
pre-training. Their performance improves with an increase in similarity and
volume of pre-training data. We believe our work will be helpful to the speech
community in building better ASR systems in low-resource settings and steer
research towards improving generalization in SSL-based pre-training for speech
systems.
- Abstract(参考訳): 高レベルの音声表現を学習するための自己教師付き学習(SSL)は、低リソース環境で自動音声認識(ASR)システムを構築するための一般的なアプローチである。
しかし、文献では、SSL事前トレーニングに活用できる同一のドメインや言語に対して、かなりの量のラベルのないデータが利用できるという仮定が一般的であり、現実の環境では実現不可能であることを認めている。
本稿では,この間欠的なgram vaani asrチャレンジの一環として,openstream pre-training sslデータのドメイン,言語,データセットサイズ,その他の側面が,最終パフォーマンスの低リソースダウンストリームasrタスクに与える影響について検討する。
また、SSLを用いてトレーニングされたモデルが持つ事前知識の効果を研究するために、継続した事前学習パラダイムを構築した。
大規模な実験と研究により、ASRシステムの性能はSSL事前トレーニングに使用されるデータに影響を受けやすいことが明らかとなった。
彼らのパフォーマンスは、事前トレーニングデータの類似性とボリュームの増加によって向上する。
我々の研究は、低リソース環境でのより良いASRシステムの構築と、SSLベースの音声システムのための事前学習の一般化に向けたステアリサーチにおいて、音声コミュニティに役立ちます。
関連論文リスト
- Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Self-supervised visual learning in the low-data regime: a comparative evaluation [40.27083924454058]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための堅牢なトレーニング手法である
この研究は、現代のビジュアルSSLメソッドの分類を導入し、アプローチの主要なカテゴリに関する詳細な説明と洞察を添えた。
ドメイン固有のダウンストリームタスクでは、ドメイン内のローデータSSLプリトレーニングが大規模な事前トレーニングの一般的なアプローチより優れています。
論文 参考訳(メタデータ) (2024-04-26T07:23:14Z) - An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution [5.1660803395535835]
自己教師付き学習(SSL)は、従来の手法と比較して星級のパフォーマンスを示している。
しかし、SSLベースのASAシステムは、少なくとも3つのデータ関連の課題に直面している。
これらの課題には、限られた注釈付きデータ、学習者の習熟度レベルの不均一分布、CEFR習熟度レベル間の不均一スコア間隔が含まれる。
論文 参考訳(メタデータ) (2024-04-11T09:06:49Z) - Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition [54.9235160379917]
安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。
これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-12-20T06:02:12Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。