論文の概要: Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts
- arxiv url: http://arxiv.org/abs/2306.01031v1
- Date: Thu, 1 Jun 2023 14:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:30:50.276462
- Title: Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts
- Title(参考訳): バイパス時間分類:不完全書き起こしを用いた弱教師付き自動音声認識
- Authors: Dongji Gao and Matthew Wiesner and Hainan Xu and Leibny Paola Garcia
and Daniel Povey and Sanjeev Khudanpur
- Abstract要約: 本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
- 参考スコア(独自算出の注目度): 44.16141704545044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel algorithm for building an automatic speech
recognition (ASR) model with imperfect training data. Imperfectly transcribed
speech is a prevalent issue in human-annotated speech corpora, which degrades
the performance of ASR models. To address this problem, we propose Bypass
Temporal Classification (BTC) as an expansion of the Connectionist Temporal
Classification (CTC) criterion. BTC explicitly encodes the uncertainties
associated with transcripts during training. This is accomplished by enhancing
the flexibility of the training graph, which is implemented as a weighted
finite-state transducer (WFST) composition. The proposed algorithm improves the
robustness and accuracy of ASR systems, particularly when working with
imprecisely transcribed speech corpora. Our implementation will be
open-sourced.
- Abstract(参考訳): 本稿では,不完全な学習データを持つ自動音声認識(asr)モデルを構築するための新しいアルゴリズムを提案する。
不完全書き起こし音声は、ASRモデルの性能を低下させる人間の注釈付き音声コーパスにおいて一般的な問題である。
この問題に対処するために,接続性時間分類(CTC)基準の拡張として,Bypass Temporal Classification (BTC)を提案する。
BTCは、トレーニング中に転写に関する不確実性を明示的にエンコードする。
これは、重み付き有限状態トランスデューサ(WFST)合成として実装されたトレーニンググラフの柔軟性を向上させることで達成される。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
私たちの実装はオープンソースになります。
関連論文リスト
- Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Learning from Flawed Data: Weakly Supervised Automatic Speech
Recognition [30.544499309503863]
自動音声認識(ASR)システムの訓練には、大量の精度の高いペアデータが必要である。
人間のアノテーションは通常 "non-verbatim" の転写を行います。
オムニ時間分類(Omni-temporal Classification,OTC)は,ラベルの不確かさを明確に組み込んだ訓練基準である。
論文 参考訳(メタデータ) (2023-09-26T12:58:40Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - End-to-end speech-to-dialog-act recognition [38.58540444573232]
本稿では,音声を直接ダイアログに変換するエンド・ツー・エンドのモデルを提案する。
提案モデルでは,対話行動認識ネットワークは,その潜在層において,音声から単語へのASRモデルと結合する。
ネットワーク全体がエンドツーエンドで微調整されている。
論文 参考訳(メタデータ) (2020-04-23T18:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。