論文の概要: BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.13226v1
- Date: Mon, 27 Sep 2021 17:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:46:01.402166
- Title: BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition
- Title(参考訳): BigSSL: 音声認識のための大規模半教師付き学習のフロンティアを探る
- Authors: Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor,
Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li,
Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai
Sim, Bhuvana Ramabhadran, Tara N. Sainath, Fran\c{c}oise Beaufays, Zhifeng
Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang and Yonghui Wu
- Abstract要約: 事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
- 参考スコア(独自算出の注目度): 126.5605160882849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We summarize the results of a host of efforts using giant automatic speech
recognition (ASR) models pre-trained using large, diverse unlabeled datasets
containing approximately a million hours of audio. We find that the combination
of pre-training, self-training and scaling up model size greatly increases data
efficiency, even for extremely large tasks with tens of thousands of hours of
labeled data. In particular, on an ASR task with 34k hours of labeled data, by
fine-tuning an 8 billion parameter pre-trained Conformer model we can match
state-of-the-art (SoTA) performance with only 3% of the training data and
significantly improve SoTA with the full training set. We also report on the
universal benefits gained from using big pre-trained and self-trained models
for a large set of downstream tasks that cover a wide range of speech domains
and span multiple orders of magnitudes of dataset sizes, including obtaining
SoTA performance on many public benchmarks. In addition, we utilize the learned
representation of pre-trained networks to achieve SoTA results on non-ASR
tasks.
- Abstract(参考訳): 約100万時間に及ぶ音声を含む大規模で多様なラベル付きデータセットを用いて事前訓練された巨大な自動音声認識(ASR)モデルを用いた研究成果を要約する。
ラベル付きデータ数万時間の非常に大きなタスクであっても,事前学習,自己学習,モデルサイズのスケールアップの組み合わせによってデータ効率が大幅に向上することがわかった。
特に、ラベル付きデータ34k時間のASRタスクでは、80億のパラメータ事前トレーニングコンバータモデルを微調整することで、トレーニングデータのわずか3%で最先端(SoTA)のパフォーマンスと一致させ、完全なトレーニングセットでSoTAを大幅に改善することができる。
また,多くの公的なベンチマークでSoTAの性能を得るなど,幅広い音声領域をカバーし,複数桁のデータセットサイズにまたがる大量の下流タスクに対して,事前学習および自己学習の大規模なモデルを使用することによって得られる,普遍的なメリットについて報告する。
さらに,事前学習ネットワークの学習表現を利用して,非ASRタスクにおけるSoTA結果を実現する。
関連論文リスト
- On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Efficient Utilization of Large Pre-Trained Models for Low Resource ASR [31.57758062484189]
ベトナム語とドイツ語の医学領域から,低リソースの会話音声コーパスについて検討した。
本研究では,大規模事前学習モデルの簡易微調整を超えて,教師なし手法の利点を示す。
論文 参考訳(メタデータ) (2022-10-26T17:34:30Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Domain-matched Pre-training Tasks for Dense Retrieval [68.07140087626637]
モデルサイズがますます大きくなる大規模データセットでの事前トレーニングは、ほぼすべてのNLPタスクのパフォーマンス向上のための実証済みのレシピである。
適切な事前トレーニング設定で、この障壁を克服できることが示されています。
1)最近リリースされた6500万の合成された質問セットと、既存のReddit会話のデータセットから2億のポストコメンデーションペアをトレーニングすることで、これを実証する。
論文 参考訳(メタデータ) (2021-07-28T19:13:00Z) - Pretraining Representations for Data-Efficient Reinforcement Learning [12.43475487724972]
ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。
Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。
提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
論文 参考訳(メタデータ) (2021-06-09T04:14:27Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。