論文の概要: Impact of Dataset on Acoustic Models for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.13590v1
- Date: Fri, 25 Mar 2022 11:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 19:26:22.585420
- Title: Impact of Dataset on Acoustic Models for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための音響モデルに対するデータセットの影響
- Authors: Siddhesh Singh
- Abstract要約: 音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されている。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能に与える影響を検討することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Automatic Speech Recognition, GMM-HMM had been widely used for acoustic
modelling. With the current advancement of deep learning, the Gaussian Mixture
Model (GMM) from acoustic models has been replaced with Deep Neural Network,
namely DNN-HMM Acoustic Models. The GMM models are widely used to create the
alignments of the training data for the hybrid deep neural network model, thus
making it an important task to create accurate alignments. Many factors such as
training dataset size, training data augmentation, model hyperparameters, etc.,
affect the model learning. Traditionally in machine learning, larger datasets
tend to have better performance, while smaller datasets tend to trigger
over-fitting. The collection of speech data and their accurate transcriptions
is a significant challenge that varies over different languages, and in most
cases, it might be limited to big organizations. Moreover, in the case of
available large datasets, training a model using such data requires additional
time and computing resources, which may not be available. While the data about
the accuracy of state-of-the-art ASR models on open-source datasets are
published, the study about the impact of the size of a dataset on acoustic
models is not readily available. This work aims to investigate the impact of
dataset size variations on the performance of various GMM-HMM Acoustic Models
and their respective computational costs.
- Abstract(参考訳): 音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
現在のディープラーニングの発展に伴い、音響モデルからのガウス混合モデル(GMM)はディープニューラルネットワーク(DNN-HMM音響モデル)に置き換えられた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されているため、正確なアライメントを作成する上で重要なタスクである。
トレーニングデータセットのサイズ、トレーニングデータ拡張、モデルハイパーパラメータなど、多くの要因がモデル学習に影響を与える。
従来の機械学習では、より大きなデータセットはパフォーマンスが向上する傾向にあり、小さなデータセットは過度に適合する傾向にある。
音声データの収集とその正確な書き起こしは、言語によって異なる重要な課題であり、ほとんどの場合、大きな組織に限定される可能性がある。
さらに、利用可能な大規模データセットの場合、そのようなデータを使ったモデルのトレーニングには追加の時間と計算リソースが必要になる。
オープンソースデータセット上での最先端のASRモデルの精度に関するデータは公開されているが、データセットのサイズが音響モデルに与える影響についての研究は容易ではない。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能と計算コストに与える影響を検討することである。
関連論文リスト
- A Systematic Approach to Robustness Modelling for Deep Convolutional
Neural Networks [0.294944680995069]
最近の研究は、より大きなモデルが制御された列車やテストセット外のデータに一般化できるかどうかという疑問を提起している。
本稿では,障害発生確率を時間関数としてモデル化する手法を提案する。
コスト、ロバスト性、レイテンシ、信頼性のトレードオフについて検討し、より大きなモデルが敵のロバスト性に大きく寄与しないことを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Scaling Laws Do Not Scale [87.76714490248779]
大規模なAIモデルのトレーニングに使用されるデータセットのサイズが大きくなるにつれて、異なるコミュニティの数が増加する可能性がある、と私たちは主張する。
その結果、データセットで表されるコミュニティが、モデルパフォーマンスを評価するために使用されるメトリクスによってキャプチャされない値や嗜好を持つリスクが増大する。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - NODE-GAM: Neural Generalized Additive Model for Interpretable Deep
Learning [16.15084484295732]
一般化付加モデル(GAM)は、リスクの高いドメインで長い歴史を持つ。
ニューラルGAM(NODE-GAM)とニューラルGA$2$M(NODE-GA$2$M)を提案する。
我々は,提案モデルが他の非解釈モデルと同等の精度で,大規模データセット上での他のGAMよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T06:20:18Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。