論文の概要: A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale
- arxiv url: http://arxiv.org/abs/2304.11053v1
- Date: Wed, 19 Apr 2023 18:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:16:32.337347
- Title: A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale
- Title(参考訳): 大規模ストリーミングASRにおける半教師付き学習手法の比較
- Authors: Cal Peyser, Michael Picheny, Kyunghyun Cho, Rohit Prabhavalkar, Ronny
Huang, Tara Sainath
- Abstract要約: 大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
- 参考スコア(独自算出の注目度): 64.10124092250126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unpaired text and audio injection have emerged as dominant methods for
improving ASR performance in the absence of a large labeled corpus. However,
little guidance exists on deploying these methods to improve production ASR
systems that are trained on very large supervised corpora and with realistic
requirements like a constrained model size and CPU budget, streaming
capability, and a rich lattice for rescoring and for downstream NLU tasks. In
this work, we compare three state-of-the-art semi-supervised methods
encompassing both unpaired text and audio as well as several of their
combinations in a controlled setting using joint training. We find that in our
setting these methods offer many improvements beyond raw WER, including
substantial gains in tail-word WER, decoder computation during inference, and
lattice density.
- Abstract(参考訳): アンペアテキストとオーディオインジェクションは、大きなラベル付きコーパスがない場合にasrの性能を改善する主要な方法として浮上している。
しかし、非常に大規模な教師付きコーパスで訓練され、制約付きモデルサイズやCPU予算、ストリーミング機能、NLUタスクの再構成とダウンストリームのためのリッチな格子といった現実的な要求を満たす、本番ASRシステムを改善するためのこれらの手法の展開に関するガイダンスはほとんどない。
本研究は,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,その組み合わせをジョイントトレーニングを用いた制御環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Fine-grained Multi-Modal Self-Supervised Learning [4.850800439026724]
ビデオからのマルチモーダル自己監視学習は、様々な下流タスクにおけるモデルの性能を改善することが示されている。
このような事前学習には、未処理のデータに発生するノイズのために、大きなバッチサイズと大量の計算資源が必要である。
そこで本稿では, 埋め込みの類似性を高精度に計算する, マルチモーダルな自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:17:45Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Generalizing AUC Optimization to Multiclass Classification for Audio
Segmentation With Limited Training Data [20.943224434364517]
ROC曲線(AUC)の最適化手法に基づく領域は、最近、様々な音声および音声関連タスクでその能力を実証している。
任意の数のクラスに容易に適用できるように,AUC最適化フレームワークの拡張を導入する。
論文 参考訳(メタデータ) (2021-10-27T13:36:04Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。