論文の概要: Pretrained audio neural networks for Speech emotion recognition in
Portuguese
- arxiv url: http://arxiv.org/abs/2210.14716v1
- Date: Wed, 26 Oct 2022 13:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 16:19:07.252510
- Title: Pretrained audio neural networks for Speech emotion recognition in
Portuguese
- Title(参考訳): ポルトガル語音声感情認識のための事前学習音声ニューラルネットワーク
- Authors: Marcelo Matheus Gauy and Marcelo Finger
- Abstract要約: 音声感情認識(SER)の目的は、音声の感情的側面を特定することである。
このデータセットにはブラジルポルトガル語のスピーチの約50ドル分が含まれている。
転送学習とデータ拡張技術を組み合わせることで、肯定的な結果が得られるかどうかを考察する。
- 参考スコア(独自算出の注目度): 3.6042575355093907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of speech emotion recognition (SER) is to identify the emotional
aspects of speech. The SER challenge for Brazilian Portuguese speech was
proposed with short snippets of Portuguese which are classified as neutral,
non-neutral female and non-neutral male according to paralinguistic elements
(laughing, crying, etc). This dataset contains about $50$ minutes of Brazilian
Portuguese speech. As the dataset leans on the small side, we investigate
whether a combination of transfer learning and data augmentation techniques can
produce positive results. Thus, by combining a data augmentation technique
called SpecAugment, with the use of Pretrained Audio Neural Networks (PANNs)
for transfer learning we are able to obtain interesting results. The PANNs
(CNN6, CNN10 and CNN14) are pretrained on a large dataset called AudioSet
containing more than $5000$ hours of audio. They were finetuned on the SER
dataset and the best performing model (CNN10) on the validation set was
submitted to the challenge, achieving an $F1$ score of $0.73$ up from $0.54$
from the baselines provided by the challenge. Moreover, we also tested the use
of Transformer neural architecture, pretrained on about $600$ hours of
Brazilian Portuguese audio data. Transformers, as well as more complex models
of PANNs (CNN14), fail to generalize to the test set in the SER dataset and do
not beat the baseline. Considering the limitation of the dataset sizes,
currently the best approach for SER is using PANNs (specifically, CNN6 and
CNN10).
- Abstract(参考訳): 音声感情認識(SER)の目的は、音声の感情的側面を特定することである。
ブラジルポルトガル語のSER課題は、ポルトガル語の短いスニペットを用いて提案され、これは、パラ言語的要素(笑、泣くなど)によって中性、非中性、非中性男性に分類される。
このデータセットにはブラジルポルトガル語のスピーチの約50ドル分が含まれている。
データセットが小さい側に傾くにつれて、転送学習とデータ拡張技術の組み合わせがポジティブな結果を生み出すことができるかどうかを調べる。
したがって、SpecAugmentと呼ばれるデータ拡張技術と、伝送学習のための事前学習型音声ニューラルネットワーク(PANN)を組み合わせることで、興味深い結果を得ることができる。
PANN(CNN6、CNN10、CNN14)は、5,000ドル以上のオーディオを含むAudioSetと呼ばれる大規模なデータセットで事前トレーニングされている。
これらはSERデータセットに基づいて微調整され、検証セット上で最高のパフォーマンスモデル(CNN10)がチャレンジに提出され、チャレンジによって提供されたベースラインから0.54ドルから0.73ドル上昇した。
さらに,ブラジルのポルトガル語音声データ約600ドルを前提としたトランスフォーマリンアーキテクチャの使用試験も行った。
変換器はPANN(CNN14)のより複雑なモデルと同様に、SERデータセットのテストセットに一般化できず、ベースラインを破らない。
データセットサイズが制限されていることを考えると、SERの現在の最善のアプローチはPANN(特にCNN6とCNN10)を使用することである。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - We Augmented Whisper With kNN and You Won't Believe What Came Next [10.174848090916669]
変換器のエンドツーエンド音声モデルであるWhisperが$k$NNの恩恵を受けていることを示す。
話者適応の意義について議論し、性別、アクセント、年齢による改善を分析した。
論文 参考訳(メタデータ) (2024-10-24T15:32:52Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Leveraging supplementary text data to kick-start automatic speech
recognition system development with limited transcriptions [14.966282057980543]
最近の研究では、10分間の書き起こしだけで自動音声認識モデル(ASR)を微調整できる可能性が示唆されている。
我々は,ASR復号化を可能語に制約する辞書を作成するために,異なる量のテキストデータを使用することについて検討する。
すべての言語に対して,レキシコンのみを用いることで,ASRの性能は向上しなかった。
論文 参考訳(メタデータ) (2023-02-09T23:30:49Z) - Exploring Deep Learning for Joint Audio-Visual Lip Biometrics [54.32039064193566]
音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
論文 参考訳(メタデータ) (2021-04-17T10:51:55Z) - SPGISpeech: 5,000 hours of transcribed financial audio for fully
formatted end-to-end speech recognition [38.96077127913159]
英語の音声テキスト(STT)機械学習タスクでは、音響モデルは伝統的に未解決のラテン文字で訓練される。
本稿では,対象ラベルに対する完全フォーマットテキストを用いたエンドツーエンドのニューラルトランスクリプションを提案する。
CER1.7を達成し、5000時間のコーパスで訓練されたベースラインのコンフォーマーベースのモデルを提示します。
論文 参考訳(メタデータ) (2021-04-05T17:05:28Z) - Advancing RNN Transducer Technology for Speech Recognition [25.265297366014277]
RNNトランスデューサ (RNN-Ts) の3つの異なるタスクにおける単語誤り率の低下に役立つ一連の手法を検討した。
アーキテクチャの変更、話者適応、言語モデル融合、モデルの組み合わせ、一般的なトレーニングレシピに関するテクニック。
我々は、NIST Hub5 2000評価のSwitchboardおよびCallHomeテストセットの5.9%および12.5%ワードエラー率とMozilla CommonVoiceイタリアテストセットの12.7%WERを報告する。
論文 参考訳(メタデータ) (2021-03-17T22:19:11Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。