論文の概要: LSTM and GPT-2 Synthetic Speech Transfer Learning for Speaker
Recognition to Overcome Data Scarcity
- arxiv url: http://arxiv.org/abs/2007.00659v2
- Date: Fri, 3 Jul 2020 17:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 00:02:50.826389
- Title: LSTM and GPT-2 Synthetic Speech Transfer Learning for Speaker
Recognition to Overcome Data Scarcity
- Title(参考訳): LSTMとGPT-2による話者認識のための音声合成学習
- Authors: Jordan J. Bird, Diego R. Faria, Anik\'o Ek\'art, Cristiano Premebida,
Pedro P. S. Ayrosa
- Abstract要約: 音声認識問題において、データの不足は、学習と分類のために大量のデータを提供する人間の意志によってしばしば問題となる。
本研究では、7人の被験者から5つのハーバードの文章を抽出し、そのMFCC属性について考察する。
文字レベルLSTMとOpenAIの注意に基づくGPT-2モデルを用いて、合成MFCCは、オブジェクト単位のデータから学習することによって生成される。
- 参考スコア(独自算出の注目度): 3.1428836133120543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech recognition problems, data scarcity often poses an issue due to the
willingness of humans to provide large amounts of data for learning and
classification. In this work, we take a set of 5 spoken Harvard sentences from
7 subjects and consider their MFCC attributes. Using character level LSTMs
(supervised learning) and OpenAI's attention-based GPT-2 models, synthetic
MFCCs are generated by learning from the data provided on a per-subject basis.
A neural network is trained to classify the data against a large dataset of
Flickr8k speakers and is then compared to a transfer learning network
performing the same task but with an initial weight distribution dictated by
learning from the synthetic data generated by the two models. The best result
for all of the 7 subjects were networks that had been exposed to synthetic
data, the model pre-trained with LSTM-produced data achieved the best result 3
times and the GPT-2 equivalent 5 times (since one subject had their best result
from both models at a draw). Through these results, we argue that speaker
classification can be improved by utilising a small amount of user data but
with exposure to synthetically-generated MFCCs which then allow the networks to
achieve near maximum classification scores.
- Abstract(参考訳): 音声認識問題において、データの不足は、学習と分類のために大量のデータを提供する人間の意志によってしばしば問題となる。
本研究では、7人の被験者から5つのハーバードの文章を抽出し、そのMFCC属性について考察する。
文字レベルLSTM(教師付き学習)とOpenAIの注意に基づくGPT-2モデルを用いて、オブジェクトごとのデータから合成MFCCを生成する。
ニューラルネットワークは、flickr8kスピーカーの大規模なデータセットに対してデータを分類するように訓練され、同じタスクを実行する転送学習ネットワークと比較されるが、この2つのモデルによって生成された合成データから学習により、初期重み分布が決定される。
その結果,合成データに曝露したネットワーク,LSTMデータで事前学習したモデルが3回,GPT-2が5回,GPT-2が1回のドローで最高の結果を得た。
これらの結果から,少数のユーザデータを活用することで話者分類を改善することができるが,合成されたmfccに曝露することで,ネットワークの最大分類スコアを最大にすることができると主張している。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in
Classification Tasks [0.0]
GPT-4 と Llama-2 から合成したデータと人間のラベル付きデータとを10種類のCSS分類タスクで比較した。
以上の結果から,人間のラベル付きデータに基づいてトレーニングしたモデルでは,人工的に強化したモデルよりも優れた,あるいは同等の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-04-26T23:09:02Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - DDKtor: Automatic Diadochokinetic Speech Analysis [13.68342426889044]
本稿では,無表記・無転写音声から子音と母音を自動的に分離する2つのディープニューラルネットワークモデルを提案する。
若い健康な個人のデータセットの結果から、LSTMモデルは現在の最先端システムよりも優れています。
LSTMモデルは、パーキンソン病データセットの未確認高齢者を対象に、訓練されたヒトアノテータに匹敵する結果を提示する。
論文 参考訳(メタデータ) (2022-06-29T13:34:03Z) - Using GPT-2 to Create Synthetic Data to Improve the Prediction
Performance of NLP Machine Learning Classification Models [0.0]
機械学習モデルの性能を高めるために合成データを利用するのが一般的になっている。
Yelpのピザレストランレビューデータセットを使って、トレーニング済みのGPT-2 Transformer Modelを微調整して、合成ピザレビューデータを生成しました。
そして、この合成データを元の本物のデータと組み合わせて、新しい共同データセットを作成しました。
論文 参考訳(メタデータ) (2021-04-02T20:20:42Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。