論文の概要: ApproBiVT: Lead ASR Models to Generalize Better Using Approximated
Bias-Variance Tradeoff Guided Early Stopping and Checkpoint Averaging
- arxiv url: http://arxiv.org/abs/2308.02870v1
- Date: Sat, 5 Aug 2023 12:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:20:11.525951
- Title: ApproBiVT: Lead ASR Models to Generalize Better Using Approximated
Bias-Variance Tradeoff Guided Early Stopping and Checkpoint Averaging
- Title(参考訳): ApproBiVT:早期停止とチェックポイント平均化による近似バイアス分散トレードオフを用いたASRモデルの一般化
- Authors: Fangyuan Wang, Ming Hao, Yuhai Shi, Bo Xu
- Abstract要約: トレーニングの損失と検証の損失をバイアスと分散のプロキシとして捉え、早期停止とチェックポイント平均化を導く。
先進的なASRモデルで評価すると、我々のレシピは2.5%-3.7%と3.1%-4.6%のCER削減をもたらす。
- 参考スコア(独自算出の注目度): 7.0626076422397475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conventional recipe for Automatic Speech Recognition (ASR) models is to
1) train multiple checkpoints on a training set while relying on a validation
set to prevent overfitting using early stopping and 2) average several last
checkpoints or that of the lowest validation losses to obtain the final model.
In this paper, we rethink and update the early stopping and checkpoint
averaging from the perspective of the bias-variance tradeoff. Theoretically,
the bias and variance represent the fitness and variability of a model and the
tradeoff of them determines the overall generalization error. But, it's
impractical to evaluate them precisely. As an alternative, we take the training
loss and validation loss as proxies of bias and variance and guide the early
stopping and checkpoint averaging using their tradeoff, namely an Approximated
Bias-Variance Tradeoff (ApproBiVT). When evaluating with advanced ASR models,
our recipe provides 2.5%-3.7% and 3.1%-4.6% CER reduction on the AISHELL-1 and
AISHELL-2, respectively.
- Abstract(参考訳): 従来の自動音声認識(ASR)モデルのレシピは、
1)早期停止による過失防止のための検証セットを頼りにトレーニングセット上で複数のチェックポイントを訓練する。
2) 最終モデルを得るためのいくつかの最終チェックポイントまたは最も低い検証損失の平均値。
本稿では, バイアス分散トレードオフの観点から, 早期停止点とチェックポイント平均値を再考し, 更新する。
理論的には、バイアスと分散はモデルの適合性と変数を表し、それらのトレードオフは全体の一般化誤差を決定する。
正確に評価するのは非現実的です
代替として、トレーニング損失と検証損失をバイアスと分散のプロキシとして捉え、トレードオフを使った早期停止とチェックポイント平均化、すなわち近似バイアス分散トレードオフ(ApproBiVT)を導出する。
AISHELL-1とAISHELL-2でそれぞれ2.5%-3.7%と3.1%-4.6%のCER削減を実現した。
関連論文リスト
- Selective Learning: Towards Robust Calibration with Dynamic
Regularization [93.2503677723367]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing
Label Bias in Foundation Models [82.97464914554402]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - Recycling Scraps: Improving Private Learning by Leveraging Intermediate
Checkpoints [17.654346227497403]
本研究は,DPトレーニングの有用性を向上させるために,中間チェックポイントを集約する様々な手法について検討する。
CIFAR10およびStackOverflowデータセットの既存のSOTAよりも,チェックポイントアグリゲーションが予測精度を大幅に向上させることを示す。
最後に,最後の数個のチェックポイントからのサンプルのばらつきは,DPランの最終モデルのばらつきをよく近似できることを示す。
論文 参考訳(メタデータ) (2022-10-04T19:21:00Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。