論文の概要: InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR
- arxiv url: http://arxiv.org/abs/2204.00174v1
- Date: Fri, 1 Apr 2022 02:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:34:14.172399
- Title: InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR
- Title(参考訳): InterAug: CTCベースのASRのためのノイズの多い中間予測
- Authors: Yu Nakagome, Tatsuya Komatsu, Yusuke Fujita, Shuta Ichimura, Yusuke
Kida
- Abstract要約: コンディショニングのための拡張中間表現を用いたCTCベースのASRのための新しいトレーニング手法であるInterAugを提案する。
提案手法は、自己条件付きCTCの条件付けフレームワークを利用して、「ノイズ」中間予測を条件付けして頑健なモデルを訓練する。
削除,挿入,置換誤差をシミュレートした拡張実験において,訓練されたモデルが各誤差に対して堅牢性を得ることを確認した。
- 参考スコア(独自算出の注目度): 17.967459632339374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes InterAug: a novel training method for CTC-based ASR using
augmented intermediate representations for conditioning. The proposed method
exploits the conditioning framework of self-conditioned CTC to train robust
models by conditioning with "noisy" intermediate predictions. During the
training, intermediate predictions are changed to incorrect intermediate
predictions, and fed into the next layer for conditioning. The subsequent
layers are trained to correct the incorrect intermediate predictions with the
intermediate losses. By repeating the augmentation and the correction,
iterative refinements, which generally require a special decoder, can be
realized only with the audio encoder. To produce noisy intermediate
predictions, we also introduce new augmentation: intermediate feature space
augmentation and intermediate token space augmentation that are designed to
simulate typical errors. The combination of the proposed InterAug framework
with new augmentation allows explicit training of the robust audio encoders. In
experiments using augmentations simulating deletion, insertion, and
substitution error, we confirmed that the trained model acquires robustness to
each error, boosting the speech recognition performance of the strong
self-conditioned CTC baseline.
- Abstract(参考訳): 本稿では,CTCをベースとしたASRの新しいトレーニング手法であるInterAugを提案する。
提案手法は, 自己条件付きCTCの条件付けフレームワークを利用して, 「ノイズ」中間予測を用いて頑健なモデルを訓練する。
トレーニング中、中間予測は誤った中間予測に変更され、コンディショニングのために次の層に供給される。
その後の層は、誤った中間予測を中間損失で補正するように訓練される。
拡張と修正を繰り返すことで、通常特別なデコーダを必要とする反復的な改善は、オーディオエンコーダでのみ実現できる。
ノイズの多い中間予測を生成するために,典型的な誤りをシミュレートするために設計された中間特徴空間拡張と中間トークン空間増強という,新たな拡張を導入する。
提案されたInterAugフレームワークと新たな拡張の組み合わせにより、堅牢なオーディオエンコーダの明示的なトレーニングが可能になる。
削除,挿入,置換誤差を模擬した拡張実験において,訓練されたモデルが各誤差に対して頑健性を獲得し,強い自己条件CTCベースラインの音声認識性能を高めることを確認した。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Better Intermediates Improve CTC Inference [37.68950144012098]
本稿はまず,中間予測を潜在表現として,自己条件付きCTCを確率モデルとして定式化する。
次に、新しい定式化に基づく2つの新しい条件付け手法を提案する。
LibriSpeechデータセットによる実験では、オリジナルの自己条件のCTCと比較して、テストクリーン/他のセットの最大で3%/12%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2022-04-01T02:51:23Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。