論文の概要: Biased Self-supervised learning for ASR
- arxiv url: http://arxiv.org/abs/2211.02536v1
- Date: Fri, 4 Nov 2022 15:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:09:54.575428
- Title: Biased Self-supervised learning for ASR
- Title(参考訳): ASRのためのバイアス付き自己教師型学習
- Authors: Florian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdelrahman
Mohamed, Philip C. Woodland
- Abstract要約: 本稿では,特定のタスクに対して自己指導型学習をバイアスする手法を提案する。
中心となる考え方は、ターゲットシーケンスを得るために使用されるモデルをわずかに微調整することである。
ストリーミングモデルの場合、事前学習のアプローチは単語エラー率を44.1%削減する。
- 参考スコア(独自算出の注目度): 31.701098864180256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning via masked prediction pre-training (MPPT) has shown
impressive performance on a range of speech-processing tasks. This paper
proposes a method to bias self-supervised learning towards a specific task. The
core idea is to slightly finetune the model that is used to obtain the target
sequence. This leads to better performance and a substantial increase in
training speed. Furthermore, this paper proposes a variant of MPPT that allows
low-footprint streaming models to be trained effectively by computing the MPPT
loss on masked and unmasked frames. These approaches are evaluated for
automatic speech recognition on the Librispeech corpus, where 100 hours of data
served as the labelled data and 860 hours as the unlabelled data. The biased
training outperforms the unbiased training by 15.5% after 250k updates and
23.8% after 100k updates on test-other. For the streaming models, the
pre-training approach yields a reduction in word error rate of 44.1%.
- Abstract(参考訳): マスク付き予測事前学習(MPPT)による自己教師型学習は,様々な音声処理タスクにおいて顕著な性能を示した。
本稿では,特定のタスクに対して自己指導型学習をバイアスする手法を提案する。
中心となるアイデアは、ターゲットシーケンスを得るために使用されるモデルをわずかに微調整することである。
これにより、パフォーマンスが向上し、トレーニング速度が大幅に向上する。
さらに,マスク付きフレームとアンマスク付きフレームのMPPT損失を計算することで,低フットプリントのストリーミングモデルを効果的に訓練できるMPPTの変種を提案する。
これらの手法は,ラベル付きデータとして100時間,非ラベル付きデータとして860時間を提供するLibrispeech corpus上での自動音声認識のために評価される。
バイアスドトレーニングは、250k更新後の未バイアストレーニングを15.5%、100k更新後の23.8%で上回る。
ストリーミングモデルの場合、事前学習のアプローチは単語エラー率を44.1%削減する。
関連論文リスト
- Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML [0.0]
評価ニューラルネットワーク(ENN)は、ターゲットネットワークの性能を予測するために、深層強化学習を通じて訓練される。
ENNは、バックプロパゲーション中に追加評価機能として機能する。
論文 参考訳(メタデータ) (2024-06-15T08:37:51Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - FedNST: Federated Noisy Student Training for Automatic Speech
Recognition [8.277567852741242]
Federated Learning (FL)は、分散システムのユーザデバイス(クライアント)上で、最先端の自動音声認識(ASR)モデルをトレーニングすることを可能にする。
FL for ASRの実践的な採用に直面している主な課題は、クライアントの地味なラベルを取得することである。
有望な代替手段は、セミ/セルフ教師付き学習アプローチを使用して、問題のないユーザデータを活用することだ。
論文 参考訳(メタデータ) (2022-06-06T16:18:45Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。