論文の概要: Large scale weakly and semi-supervised learning for low-resource video
ASR
- arxiv url: http://arxiv.org/abs/2005.07850v2
- Date: Fri, 7 Aug 2020 01:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:42:09.726785
- Title: Large scale weakly and semi-supervised learning for low-resource video
ASR
- Title(参考訳): 低リソースビデオasrのための大規模弱教師付き学習
- Authors: Kritika Singh, Vimal Manohar, Alex Xiao, Sergey Edunov, Ross Girshick,
Vitaliy Liptchinsky, Christian Fuegen, Yatharth Saraf, Geoffrey Zweig,
Abdelrahman Mohamed
- Abstract要約: ソーシャルメディアビデオの自己ラベル化と弱教師付き事前学習のアプローチを比較した。
エンコーダ・デコーダモデルのシーケンスレベルの蒸留は,最強のデータ拡張型ベースラインに比べて20%の相対的なWER還元率を示す。
- 参考スコア(独自算出の注目度): 32.33625853364696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many semi- and weakly-supervised approaches have been investigated for
overcoming the labeling cost of building high quality speech recognition
systems. On the challenging task of transcribing social media videos in
low-resource conditions, we conduct a large scale systematic comparison between
two self-labeling methods on one hand, and weakly-supervised pretraining using
contextual metadata on the other. We investigate distillation methods at the
frame level and the sequence level for hybrid, encoder-only CTC-based, and
encoder-decoder speech recognition systems on Dutch and Romanian languages
using 27,000 and 58,000 hours of unlabeled audio respectively. Although all
approaches improved upon their respective baseline WERs by more than 8%,
sequence-level distillation for encoder-decoder models provided the largest
relative WER reduction of 20% compared to the strongest data-augmented
supervised baseline.
- Abstract(参考訳): 高品質音声認識システム構築のラベル付けコストを克服するために, 半弱教師付きアプローチが数多く検討されている。
低リソース環境におけるソーシャルメディア動画の書き起こしの課題として,2つの自己ラベル方式と,文脈メタデータを用いた弱い教師付き事前学習を大規模に体系的に比較した。
オランダ語とルーマニア語におけるハイブリッド,エンコーダのみのctc,エンコーダ・デコーダ音声認識システムのフレームレベルとシーケンスレベルにおける蒸留法について,ラベルなし音声の27,000時間と58,000時間を用いて検討した。
エンコーダ-デコーダモデルにおけるシーケンスレベルの蒸留は, それぞれのベースラインWERに対して8%以上改善したが, 最強データ拡張ベースラインに比べて20%の相対的な還元率を示した。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。