論文の概要: From Weak Labels to Strong Results: Utilizing 5,000 Hours of Noisy Classroom Transcripts with Minimal Accurate Data
- arxiv url: http://arxiv.org/abs/2505.17088v1
- Date: Tue, 20 May 2025 20:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.54744
- Title: From Weak Labels to Strong Results: Utilizing 5,000 Hours of Noisy Classroom Transcripts with Minimal Accurate Data
- Title(参考訳): 弱ラベルから強結果へ:極小精度データを用いた5000時間うるさいクラスルームトランスクリプトの利用
- Authors: Ahmed Adel Attia, Dorottya Demszky, Jing Liu, Carol Espy-Wilson,
- Abstract要約: 弱教師付き事前訓練(Weakly Supervised Pretraining)は、2段階のプロセスである。
以上の結果から,WSP が代替手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.577418871605078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in speech recognition has relied on models trained on vast amounts of labeled data. However, classroom Automatic Speech Recognition (ASR) faces the real-world challenge of abundant weak transcripts paired with only a small amount of accurate, gold-standard data. In such low-resource settings, high transcription costs make re-transcription impractical. To address this, we ask: what is the best approach when abundant inexpensive weak transcripts coexist with limited gold-standard data, as is the case for classroom speech data? We propose Weakly Supervised Pretraining (WSP), a two-step process where models are first pretrained on weak transcripts in a supervised manner, and then fine-tuned on accurate data. Our results, based on both synthetic and real weak transcripts, show that WSP outperforms alternative methods, establishing it as an effective training methodology for low-resource ASR in real-world scenarios.
- Abstract(参考訳): 近年の音声認識の進歩は、大量のラベル付きデータに基づいて訓練されたモデルに依存している。
しかし、教室の自動音声認識(ASR)は、少量の正確なゴールド標準データと組み合わせた豊富な弱い文字起こしの現実的な課題に直面している。
このような低リソース環境では、高い転写コストが再転写を非現実的にする。
これを解決するために、教室の音声データのように、豊富な安価な弱い筆跡と限られたゴールドスタンダードデータとが共存する最良のアプローチは何か、と問う。
Weakly Supervised Pretraining (WSP) という2段階のプロセスを提案する。
この結果から,WSP は実世界のシナリオにおいて,低リソース ASR の効果的なトレーニング手法として,代替手法よりも優れていたことが示唆された。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Learning from Flawed Data: Weakly Supervised Automatic Speech
Recognition [30.544499309503863]
自動音声認識(ASR)システムの訓練には、大量の精度の高いペアデータが必要である。
人間のアノテーションは通常 "non-verbatim" の転写を行います。
オムニ時間分類(Omni-temporal Classification,OTC)は,ラベルの不確かさを明確に組み込んだ訓練基準である。
論文 参考訳(メタデータ) (2023-09-26T12:58:40Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - Generating Human Readable Transcript for Automatic Speech Recognition
with Pre-trained Language Model [18.26945997660616]
多くの下流のタスクと人間の読者は、ASRシステムの出力に依存しています。
本稿では,不正かつノイズの多いASR出力を可読テキストに変換することを目的としたASR後処理モデルを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:45:50Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。