論文の概要: Reducing Exposure Bias in Training Recurrent Neural Network Transducers
- arxiv url: http://arxiv.org/abs/2108.10803v1
- Date: Tue, 24 Aug 2021 15:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:27:50.873836
- Title: Reducing Exposure Bias in Training Recurrent Neural Network Transducers
- Title(参考訳): リカレントニューラルネットワークトランスデューサにおける露出バイアスの低減
- Authors: Xiaodong Cui, Brian Kingsbury, George Saon, David Haws, Zoltan Tuske
- Abstract要約: 自動音声認識のためのRNNTモデルの一般化のための訓練における露出バイアス低減手法について検討する。
我々は,高性能RNNT ASRモデルの精度をさらに向上し,300時間Switchboardデータセットの最先端結果を得ることができることを示す。
- 参考スコア(独自算出の注目度): 37.53697357406185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When recurrent neural network transducers (RNNTs) are trained using the
typical maximum likelihood criterion, the prediction network is trained only on
ground truth label sequences. This leads to a mismatch during inference, known
as exposure bias, when the model must deal with label sequences containing
errors. In this paper we investigate approaches to reducing exposure bias in
training to improve the generalization of RNNT models for automatic speech
recognition (ASR). A label-preserving input perturbation to the prediction
network is introduced. The input token sequences are perturbed using SwitchOut
and scheduled sampling based on an additional token language model. Experiments
conducted on the 300-hour Switchboard dataset demonstrate their effectiveness.
By reducing the exposure bias, we show that we can further improve the accuracy
of a high-performance RNNT ASR model and obtain state-of-the-art results on the
300-hour Switchboard dataset.
- Abstract(参考訳): リカレントニューラルネットワークトランスデューサ(rnnts)を典型的最大度基準を用いて訓練すると、予測ネットワークは基底真理ラベル配列のみに基づいて訓練される。
これにより、モデルがエラーを含むラベルシーケンスを扱う必要がある場合、露出バイアスとして知られる推論中にミスマッチが発生する。
本稿では,自動音声認識(ASR)のためのRNNTモデルの一般化を改善するために,トレーニングにおける露出バイアスを低減するアプローチを検討する。
予測ネットワークに対するラベル保存入力摂動を導入する。
入力トークンシーケンスは、追加のトークン言語モデルに基づいてスイッチアウトとスケジュールサンプリングを使用して摂動される。
300時間のswitchboardデータセットで実施された実験は、その効果を示している。
露光バイアスを低減することで、高性能RNNT ASRモデルの精度をさらに向上し、300時間Switchboardデータセットの最先端結果を得ることができることを示す。
関連論文リスト
- Neural networks for insurance pricing with frequency and severity data: a benchmark study from data preprocessing to technical tariff [2.4578723416255754]
本稿では,複数種類の入力機能が存在する場合に,頻度と重大度を目標とした4つの保険データ集合に関するベンチマーク研究を行う。
本稿では,2つの入力データに対する一般化線形モデル,勾配ブースト木モデル,フィードフォワードニューラルネットワーク(FFNN),複合アクチュエータニューラルネットワーク(CANN)の性能を詳細に比較する。
論文 参考訳(メタデータ) (2023-10-19T12:00:33Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Input Perturbation Reduces Exposure Bias in Diffusion Models [41.483581603727444]
本稿では,長いサンプリングチェーンが,自己回帰テキスト生成における露出バイアス問題と同様の誤差蓄積現象を引き起こすことを示す。
本稿では,推定時間予測誤差をシミュレートするために,基底真理サンプルを摂動させることにより,非常に単純で効果的なトレーニング正則化を提案する。
実験により,リコールと精度に影響を与えることなく,提案した入力摂動がサンプル品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-01-27T13:34:54Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration [62.4971588282174]
我々はニューラルクランプ法と呼ばれる新しい後処理キャリブレーション法を提案する。
実験の結果,Neural Clampingは最先端の処理後のキャリブレーション法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-23T14:18:39Z) - Improving self-supervised pretraining models for epileptic seizure
detection from EEG data [0.23624125155742057]
本稿では、時系列に基づく拡散畳み込みニューラルネットワーク(DCRNN)モデルの性能を高めるための様々な自己超越戦略を提案する。
自己超越事前訓練フェーズの学習重量は、モデルの予測能力を高めるために教師付きトレーニングフェーズに移行することができる。
論文 参考訳(メタデータ) (2022-06-28T17:15:49Z) - Improving Generalization of Deep Neural Network Acoustic Models with
Length Perturbation and N-best Based Label Smoothing [49.82147684491619]
音声認識(ASR)のためのディープニューラルネットワーク(DNN)音響モデルの一般化を改善する2つの手法を提案する。
長さ摂動 (Longth perturbation) は、音声特徴系列の長さを変更するために音声のフレームをランダムにドロップして挿入するデータ拡張アルゴリズムである。
N-bestに基づくラベルスムーシングは、n-best仮説からノイズラベルが生成される過度な適合を避けるために、トレーニング中にグラウンド・真理ラベルにランダムにノイズを注入する。
論文 参考訳(メタデータ) (2022-03-29T01:40:22Z) - ZORB: A Derivative-Free Backpropagation Algorithm for Neural Networks [3.6562366216810447]
我々は、ZORB(Zeroth-Order Relaxed Backpropagation)と呼ばれる、単純だが高速なトレーニングアルゴリズムを提案する。
勾配を計算する代わりに、ZORBは情報をバックプロパゲートするためにターゲットの擬似逆数を使用する。
標準分類と回帰ベンチマークの実験は、グラディエントDescentによる従来のバックプロパゲーションに対するZORBの優位性を示している。
論文 参考訳(メタデータ) (2020-11-17T19:29:47Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。