論文の概要: WST: Weakly Supervised Transducer for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.04035v1
- Date: Thu, 06 Nov 2025 04:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.296904
- Title: WST: Weakly Supervised Transducer for Automatic Speech Recognition
- Title(参考訳): WST:音声認識のための弱教師付きトランスデューサ
- Authors: Dongji Gao, Chenda Liao, Changliang Liu, Matthew Wiesner, Leibny Paola Garcia, Daniel Povey, Sanjeev Khudanpur, Jian Wu,
- Abstract要約: Weakly Supervised Transducer (WST) は、追加の信頼度推定や補助的な事前訓練モデルを必要とすることなく、書き起こし中のエラーを堅牢に処理するように設計されている。
合成データセットと工業データセットの実証評価により、WSTは最大70%の転写誤り率でも性能を効果的に維持できることが示された。
- 参考スコア(独自算出の注目度): 26.373816643181843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Recurrent Neural Network-Transducer (RNN-T) is widely adopted in end-to-end (E2E) automatic speech recognition (ASR) tasks but depends heavily on large-scale, high-quality annotated data, which are often costly and difficult to obtain. To mitigate this reliance, we propose a Weakly Supervised Transducer (WST), which integrates a flexible training graph designed to robustly handle errors in the transcripts without requiring additional confidence estimation or auxiliary pre-trained models. Empirical evaluations on synthetic and industrial datasets reveal that WST effectively maintains performance even with transcription error rates of up to 70%, consistently outperforming existing Connectionist Temporal Classification (CTC)-based weakly supervised approaches, such as Bypass Temporal Classification (BTC) and Omni-Temporal Classification (OTC). These results demonstrate the practical utility and robustness of WST in realistic ASR settings. The implementation will be publicly available.
- Abstract(参考訳): Recurrent Neural Network-Transducer (RNN-T) は、エンドツーエンド(E2E)自動音声認識(ASR)タスクで広く採用されているが、大規模で高品質な注釈付きデータに大きく依存している。
この信頼性を緩和するために、より信頼性の高い推定や補助的な事前学習モデルを必要とせずに、テキスト中のエラーを堅牢に処理するフレキシブルなトレーニンググラフを統合するWST(Weakly Supervised Transducer)を提案する。
人工的および工業的データセットに関する実証的な評価によると、WSTは最大70%の転写誤り率でも効果的に性能を維持しており、Bypass Temporal Classification (BTC)やOmni-Temporal Classification (OTC)のような既存のConnectionist Temporal Classification (CTC)ベースの弱教師付きアプローチよりも一貫して優れている。
これらの結果は、現実的なASR設定におけるWSTの実用性と堅牢性を示している。
実装は一般公開される予定だ。
関連論文リスト
- HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。
本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文 参考訳(メタデータ) (2024-08-11T13:55:58Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - HFedMS: Heterogeneous Federated Learning with Memorable Data Semantics
in Industrial Metaverse [49.1501082763252]
本稿では,新しい産業メタバースに実用FLを取り入れたHFEDMSを提案する。
動的グルーピングとトレーニングモード変換によってデータの均一性を低下させる。
そして、圧縮された履歴データセマンティクスを融合することで、忘れられた知識を補う。
ストリームされた非I.d.FEMNISTデータセットに対して,368個のシミュレーションデバイスを用いて実験を行った。
論文 参考訳(メタデータ) (2022-11-07T04:33:24Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。