論文の概要: Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset
- arxiv url: http://arxiv.org/abs/2110.04425v1
- Date: Sat, 9 Oct 2021 00:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 04:42:03.559274
- Title: Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset
- Title(参考訳): BAVEDデータセットに基づく Wav2vec2.0 と HuBERT を用いたアラビア音声感情認識
- Authors: Omar Mohamed and Salah A. Aly
- Abstract要約: 本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there have been tremendous research outcomes in the fields of
speech recognition and natural language processing. This is due to the
well-developed multi-layers deep learning paradigms such as wav2vec2.0,
Wav2vecU, WavBERT, and HuBERT that provide better representation learning and
high information capturing. Such paradigms run on hundreds of unlabeled data,
then fine-tuned on a small dataset for specific tasks. This paper introduces a
deep learning constructed emotional recognition model for Arabic speech
dialogues. The developed model employs the state of the art audio
representations include wav2vec2.0 and HuBERT. The experiment and performance
results of our model overcome the previous known outcomes.
- Abstract(参考訳): 近年,音声認識や自然言語処理の分野では,大きな研究成果が報告されている。
これは、より優れた表現学習と高情報キャプチャを提供する、wav2vec2.0、Wav2vecU、WavBERT、HuBERTといった、よく開発された多層ディープラーニングパラダイムによるものである。
このようなパラダイムは数百のラベルのないデータ上で実行され、特定のタスクのために小さなデータセットで微調整される。
本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
関連論文リスト
- WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset [0.0]
We developed a Deep learning model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools。
この実験により、ある話者に対する任意の波動信号が98%と97.1%の精度で識別できることが保証された。
論文 参考訳(メタデータ) (2021-11-11T17:44:50Z) - A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion
Recognition, Speaker Verification and Spoken Language Understanding [0.9023847175654603]
我々は,3つの非ASR音声タスクに対するwav2vec 2.0およびHuBERT事前学習モデルにおける部分的微調整と全微調整について検討する。
単純なダウンストリームフレームワークでは、最高のスコアはIEMOCAPの音声感情認識の79.58%、VoxCeleb1の話者検証の2.36%、Intent Classificationの87.51%、SLURPのスロットフィリングの75.32%のF1に達する。
論文 参考訳(メタデータ) (2021-11-04T10:39:06Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。
トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。
提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-04-08T04:31:58Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。