論文の概要: RNN-Transducer-based Losses for Speech Recognition on Noisy Targets
- arxiv url: http://arxiv.org/abs/2504.06963v1
- Date: Wed, 09 Apr 2025 15:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:33:14.500409
- Title: RNN-Transducer-based Losses for Speech Recognition on Noisy Targets
- Title(参考訳): RNN-Transducer-based Losses for Speech Recognition on Noisy Targets
- Authors: Vladimir Bataev,
- Abstract要約: RNN-Transducerモデルにおける転写誤りの影響を軽減するために,新しい損失関数を導入する。
我々のStar-Transducer損失は、損失格子に「スキップフレーム」遷移を組み込むことで、削除エラーに対処する。
Bypass-Transducer損失は「スキップトークン」遷移を使用して挿入エラーに対処し、品質の60%以上を回復する。
- 参考スコア(独自算出の注目度): 1.4685355149711303
- License:
- Abstract: Training speech recognition systems on noisy transcripts is a significant challenge in industrial pipelines, where datasets are enormous and ensuring accurate transcription for every instance is difficult. In this work, we introduce novel loss functions to mitigate the impact of transcription errors in RNN-Transducer models. Our Star-Transducer loss addresses deletion errors by incorporating "skip frame" transitions in the loss lattice, restoring over 90% of the system's performance compared to models trained with accurate transcripts. The Bypass-Transducer loss uses "skip token" transitions to tackle insertion errors, recovering more than 60% of the quality. Finally, the Target-Robust Transducer loss merges these approaches, offering robust performance against arbitrary errors. Experimental results demonstrate that the Target-Robust Transducer loss significantly improves RNN-T performance on noisy data by restoring over 70% of the quality compared to well-transcribed data.
- Abstract(参考訳): ノイズの多い書き起こしによる音声認識システムの訓練は、データセットが巨大であり、すべてのインスタンスに対して正確な書き起こしを保証することが困難である産業パイプラインにおいて重要な課題である。
本研究では,RNN-Transducerモデルにおける転写誤りの影響を軽減するために,新たな損失関数を導入する。
我々のStar-Transducer損失は、損失格子に「スキップフレーム」遷移を組み込むことで削除エラーに対処し、正確な書き起こしで訓練されたモデルと比較して、システムの性能の90%以上を復元する。
Bypass-Transducer損失は「スキップトークン」遷移を使用して挿入エラーに対処し、品質の60%以上を回復する。
最後に、Target-Robust Transducer損失はこれらのアプローチをマージし、任意のエラーに対して堅牢なパフォーマンスを提供する。
実験結果から,Target-Robust Transducerの損失は,良好な転写データに比べて品質の70%以上を回復することにより,ノイズデータ上でのRNN-T性能を著しく向上することが示された。
関連論文リスト
- Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Human Transcription Quality Improvement [2.24166568188073]
本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という,転写品質向上のための2つのメカニズムを提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
論文 参考訳(メタデータ) (2023-09-24T03:39:43Z) - Enhancing Noise-Robust Losses for Large-Scale Noisy Data Learning [0.0]
大きな注釈付きデータセットには、必然的にノイズのあるラベルが含まれており、ラベルを覚えやすいようにディープニューラルネットワークをトレーニングする上で大きな課題となる。
ノイズ・ロバスト損失関数はこの問題に対処するための重要な戦略として現れてきたが、過度に適合しないロバスト損失関数を作成することは依然として困難である。
本稿では,ロジットバイアス(logit bias)と表される新しい手法を提案し,ロジットに正しいクラスの位置で実数$epsilon$を付加する。
論文 参考訳(メタデータ) (2023-06-08T18:38:55Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Transitive Learning: Exploring the Transitivity of Degradations for
Blind Super-Resolution [89.4784684863403]
経時劣化に対する盲目超解像法 (TLSR) の新しいTransitive Learning法を提案する。
我々は, 広く用いられている添加物および畳み込み劣化を含む劣化の推移性を分析し, 実証する。
提案するTLSRは性能が向上し,最先端のブラインドSR手法と比較して時間の浪費が少ないことを示す。
論文 参考訳(メタデータ) (2021-03-29T02:51:09Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Improved Natural Language Generation via Loss Truncation [29.676561106319173]
識別性は、無効な参照を扱うための原則的で堅牢な代替手段であることを示す。
学習中に高損失例を適応的に除去する損失トランケーションを提案する。
これは、ログの損失やノイズ下での識別性を厳格に制限するのと同じくらい簡単に最適化できることを示している。
論文 参考訳(メタデータ) (2020-04-30T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。