論文の概要: Impact of Dataset on Acoustic Models for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.13590v1
- Date: Fri, 25 Mar 2022 11:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 19:26:22.585420
- Title: Impact of Dataset on Acoustic Models for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための音響モデルに対するデータセットの影響
- Authors: Siddhesh Singh
- Abstract要約: 音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されている。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能に与える影響を検討することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Automatic Speech Recognition, GMM-HMM had been widely used for acoustic
modelling. With the current advancement of deep learning, the Gaussian Mixture
Model (GMM) from acoustic models has been replaced with Deep Neural Network,
namely DNN-HMM Acoustic Models. The GMM models are widely used to create the
alignments of the training data for the hybrid deep neural network model, thus
making it an important task to create accurate alignments. Many factors such as
training dataset size, training data augmentation, model hyperparameters, etc.,
affect the model learning. Traditionally in machine learning, larger datasets
tend to have better performance, while smaller datasets tend to trigger
over-fitting. The collection of speech data and their accurate transcriptions
is a significant challenge that varies over different languages, and in most
cases, it might be limited to big organizations. Moreover, in the case of
available large datasets, training a model using such data requires additional
time and computing resources, which may not be available. While the data about
the accuracy of state-of-the-art ASR models on open-source datasets are
published, the study about the impact of the size of a dataset on acoustic
models is not readily available. This work aims to investigate the impact of
dataset size variations on the performance of various GMM-HMM Acoustic Models
and their respective computational costs.
- Abstract(参考訳): 音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
現在のディープラーニングの発展に伴い、音響モデルからのガウス混合モデル(GMM)はディープニューラルネットワーク(DNN-HMM音響モデル)に置き換えられた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されているため、正確なアライメントを作成する上で重要なタスクである。
トレーニングデータセットのサイズ、トレーニングデータ拡張、モデルハイパーパラメータなど、多くの要因がモデル学習に影響を与える。
従来の機械学習では、より大きなデータセットはパフォーマンスが向上する傾向にあり、小さなデータセットは過度に適合する傾向にある。
音声データの収集とその正確な書き起こしは、言語によって異なる重要な課題であり、ほとんどの場合、大きな組織に限定される可能性がある。
さらに、利用可能な大規模データセットの場合、そのようなデータを使ったモデルのトレーニングには追加の時間と計算リソースが必要になる。
オープンソースデータセット上での最先端のASRモデルの精度に関するデータは公開されているが、データセットのサイズが音響モデルに与える影響についての研究は容易ではない。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能と計算コストに与える影響を検討することである。
関連論文リスト
- CoDi: Conversational Distillation for Grounded Question Answering [10.265241619616676]
我々はCoDiという新しいデータ蒸留フレームワークを導入する。
CoDiを使えば、大規模でアシスタントスタイルのデータセットを、さまざまな方法で合成することができます。
我々は,CoDi合成データを用いてトレーニングしたSLMが,標準的な測定値において,人間の注釈付きデータに基づいてトレーニングしたモデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-20T22:35:47Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - NODE-GAM: Neural Generalized Additive Model for Interpretable Deep
Learning [16.15084484295732]
一般化付加モデル(GAM)は、リスクの高いドメインで長い歴史を持つ。
ニューラルGAM(NODE-GAM)とニューラルGA$2$M(NODE-GA$2$M)を提案する。
我々は,提案モデルが他の非解釈モデルと同等の精度で,大規模データセット上での他のGAMよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T06:20:18Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。