論文の概要: Biased Self-supervised learning for ASR
- arxiv url: http://arxiv.org/abs/2211.02536v1
- Date: Fri, 4 Nov 2022 15:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:09:54.575428
- Title: Biased Self-supervised learning for ASR
- Title(参考訳): ASRのためのバイアス付き自己教師型学習
- Authors: Florian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdelrahman
Mohamed, Philip C. Woodland
- Abstract要約: 本稿では,特定のタスクに対して自己指導型学習をバイアスする手法を提案する。
中心となる考え方は、ターゲットシーケンスを得るために使用されるモデルをわずかに微調整することである。
ストリーミングモデルの場合、事前学習のアプローチは単語エラー率を44.1%削減する。
- 参考スコア(独自算出の注目度): 31.701098864180256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning via masked prediction pre-training (MPPT) has shown
impressive performance on a range of speech-processing tasks. This paper
proposes a method to bias self-supervised learning towards a specific task. The
core idea is to slightly finetune the model that is used to obtain the target
sequence. This leads to better performance and a substantial increase in
training speed. Furthermore, this paper proposes a variant of MPPT that allows
low-footprint streaming models to be trained effectively by computing the MPPT
loss on masked and unmasked frames. These approaches are evaluated for
automatic speech recognition on the Librispeech corpus, where 100 hours of data
served as the labelled data and 860 hours as the unlabelled data. The biased
training outperforms the unbiased training by 15.5% after 250k updates and
23.8% after 100k updates on test-other. For the streaming models, the
pre-training approach yields a reduction in word error rate of 44.1%.
- Abstract(参考訳): マスク付き予測事前学習(MPPT)による自己教師型学習は,様々な音声処理タスクにおいて顕著な性能を示した。
本稿では,特定のタスクに対して自己指導型学習をバイアスする手法を提案する。
中心となるアイデアは、ターゲットシーケンスを得るために使用されるモデルをわずかに微調整することである。
これにより、パフォーマンスが向上し、トレーニング速度が大幅に向上する。
さらに,マスク付きフレームとアンマスク付きフレームのMPPT損失を計算することで,低フットプリントのストリーミングモデルを効果的に訓練できるMPPTの変種を提案する。
これらの手法は,ラベル付きデータとして100時間,非ラベル付きデータとして860時間を提供するLibrispeech corpus上での自動音声認識のために評価される。
バイアスドトレーニングは、250k更新後の未バイアストレーニングを15.5%、100k更新後の23.8%で上回る。
ストリーミングモデルの場合、事前学習のアプローチは単語エラー率を44.1%削減する。
関連論文リスト
- Revisiting the Power of Prompt for Visual Tuning [53.102284329377056]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - End-to-End Temporal Action Detection with 1B Parameters Across 1000
Frames [60.88096113158131]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
本稿では,エンド・ツー・エンドのトレーニングにおけるメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - FedNST: Federated Noisy Student Training for Automatic Speech
Recognition [8.277567852741242]
Federated Learning (FL)は、分散システムのユーザデバイス(クライアント)上で、最先端の自動音声認識(ASR)モデルをトレーニングすることを可能にする。
FL for ASRの実践的な採用に直面している主な課題は、クライアントの地味なラベルを取得することである。
有望な代替手段は、セミ/セルフ教師付き学習アプローチを使用して、問題のないユーザデータを活用することだ。
論文 参考訳(メタデータ) (2022-06-06T16:18:45Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Semi-Supervised Learning for Sparsely-Labeled Sequential Data:
Application to Healthcare Video Processing [0.8312466807725921]
逐次データにおける事象検出性能を向上させるための半教師付き機械学習学習戦略を提案する。
本手法では, 事象検出モデルの訓練に, 事象の終了時刻の雑音予測を用いる。
我々は,MNISTの平均精度が12ポイント,CIFARが3.5ポイント,保守的評価が12ポイント向上していることを示す。
論文 参考訳(メタデータ) (2020-11-28T09:54:44Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Improved Noisy Student Training for Automatic Speech Recognition [89.8397907990268]
雑音学習」は,ネットワーク性能向上のために拡張を活用した反復的自己学習手法である。
自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。
我々は、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。
論文 参考訳(メタデータ) (2020-05-19T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。