論文の概要: More Speaking or More Speakers?
- arxiv url: http://arxiv.org/abs/2211.00854v1
- Date: Wed, 2 Nov 2022 03:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:59:31.289135
- Title: More Speaking or More Speakers?
- Title(参考訳): もっと話すか、もっと話すか?
- Authors: Dan Berrebbi, Ronan Collobert, Navdeep Jaitly, Tatiana Likhomanenko
- Abstract要約: 自己学習(ST)と自己教師型学習(SSL)の手法は、音声認識(ASR)の大幅な改善を証明している。
本研究では、最近のSSLアルゴリズム(wav2vec 2.0)と最近のSTアルゴリズム(slimIPL)に対するトレーニングデータにおける話者数の影響を分析することを目的とする。
以上の結果から, SSL は精度の高いデータを生成するために大量のラベル付きデータを必要とするが, ST はラベル付きデータ, 特に低登録環境では十分な数の話者を必要とすることが示唆された。
- 参考スコア(独自算出の注目度): 17.143456510764576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-training (ST) and self-supervised learning (SSL) methods have
demonstrated strong improvements in automatic speech recognition (ASR). In
spite of these advances, to the best of our knowledge, there is no analysis of
how the composition of the labelled and unlabelled datasets used in these
methods affects the results. In this work we aim to analyse the effect of
numbers of speakers in the training data on a recent SSL algorithm (wav2vec
2.0), and a recent ST algorithm (slimIPL). We perform a systematic analysis on
both labeled and unlabeled data by varying the number of speakers while keeping
the number of hours fixed and vice versa. Our findings suggest that SSL
requires a large amount of unlabeled data to produce high accuracy results,
while ST requires a sufficient number of speakers in the labelled data,
especially in the low-regime setting. In this manner these two approaches
improve supervised learning in different regimes of dataset composition.
- Abstract(参考訳): 自己学習(ST)と自己教師型学習(SSL)の手法は,音声認識(ASR)において大きく改善されている。
これらの進歩にもかかわらず、我々の知る限りでは、これらの方法で使用されるラベル付きデータセットとラベル付きデータセットの合成が結果にどう影響するかの分析は行われていない。
本研究では、最近のSSLアルゴリズム(wav2vec 2.0)と最近のSTアルゴリズム(slimIPL)のトレーニングデータにおける話者数の影響を分析することを目的とする。
ラベル付きデータとラベルなしデータの両方に対して,話者数を変えながら時間数を固定し,その逆で系統解析を行う。
以上の結果から, SSL は精度の高いデータを生成するために大量のラベル付きデータを必要とするが, ST はラベル付きデータに十分な数の話者を必要とすることが示唆された。
このようにして、これら2つのアプローチは、データセット構成の異なる領域における教師あり学習を改善する。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect [11.013934239276036]
自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
論文 参考訳(メタデータ) (2024-07-05T14:21:36Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Rethinking Semi-supervised Learning with Language Models [33.70349754359132]
半教師付き学習(SSL)は、モデル性能を改善するために非ラベルデータを有効に活用することを目的とした一般的な設定である。
自己学習(ST)とタスク適応事前学習(TAPT)の2つの手法がある。
論文 参考訳(メタデータ) (2023-05-22T13:07:35Z) - Active Semi-Supervised Learning by Exploring Per-Sample Uncertainty and
Consistency [30.94964727745347]
そこで我々は,ASSL(Active Semi-supervised Learning)と呼ばれる手法を提案し,低コストでモデルの精度を向上させる。
ASSLには、ラベルなしデータの使用により、アクティブラーニング(AL)よりもダイナミックなモデル更新が含まれている。
ASSLは同じ性能を保ちながら、半教師あり学習(SSL)の約5.3倍の計算効率を達成した。
論文 参考訳(メタデータ) (2023-03-15T22:58:23Z) - A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends [82.64268080902742]
自己教師付き学習(SSL)は、ラベル付きラベルを頼らずにラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
論文 参考訳(メタデータ) (2023-01-13T14:41:05Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Augmented Contrastive Self-Supervised Learning for Audio Invariant
Representations [28.511060004984895]
ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。
提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。
論文 参考訳(メタデータ) (2021-12-21T02:50:53Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。