論文の概要: Self-Supervised Learning for Audio-Based Emotion Recognition
- arxiv url: http://arxiv.org/abs/2307.12343v1
- Date: Sun, 23 Jul 2023 14:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:30:18.555449
- Title: Self-Supervised Learning for Audio-Based Emotion Recognition
- Title(参考訳): 音声に基づく感情認識のための自己教師あり学習
- Authors: Peranut Nimitsurachat and Peter Washington
- Abstract要約: 自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 1.7598252755538808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition models using audio input data can enable the development
of interactive systems with applications in mental healthcare, marketing,
gaming, and social media analysis. While the field of affective computing using
audio data is rich, a major barrier to achieve consistently high-performance
models is the paucity of available training labels. Self-supervised learning
(SSL) is a family of methods which can learn despite a scarcity of supervised
labels by predicting properties of the data itself. To understand the utility
of self-supervised learning for audio-based emotion recognition, we have
applied self-supervised learning pre-training to the classification of emotions
from the CMU- MOSEI's acoustic modality. Unlike prior papers that have
experimented with raw acoustic data, our technique has been applied to encoded
acoustic data. Our model is first pretrained to uncover the randomly-masked
timestamps of the acoustic data. The pre-trained model is then fine-tuned using
a small sample of annotated data. The performance of the final model is then
evaluated via several evaluation metrics against a baseline deep learning model
with an identical backbone architecture. We find that self-supervised learning
consistently improves the performance of the model across all metrics. This
work shows the utility of self-supervised learning for affective computing,
demonstrating that self-supervised learning is most useful when the number of
training examples is small, and that the effect is most pronounced for emotions
which are easier to classify such as happy, sad and anger. This work further
demonstrates that self-supervised learning works when applied to embedded
feature representations rather than the traditional approach of pre-training on
the raw input space.
- Abstract(参考訳): 音声入力データを用いた感情認識モデルは、メンタルヘルス、マーケティング、ゲーム、ソーシャルメディア分析のアプリケーションを含む対話型システムの開発を可能にする。
オーディオデータを用いた情緒的コンピューティングの分野は豊富だが、一貫した高性能モデルを達成するための大きな障壁は、利用可能なトレーニングラベルのpaucityである。
自己教師付き学習 (SSL) は、データ自体の特性を予測することによって、教師付きラベルの不足にもかかわらず学習できる手法のファミリーである。
音声に基づく感情認識における自己教師あり学習の有用性を理解するため,cmu-moseiの音響モダリティから感情の分類に自己教師あり学習前学習を適用した。
生の音響データを実験した先行論文とは異なり,本手法は符号化音響データに適用されている。
我々のモデルはまず、音響データのランダムにマスクされたタイムスタンプを明らかにするために事前学習される。
事前学習されたモデルは、注釈付きデータの小さなサンプルを使って微調整される。
最終モデルの性能は、同じバックボーンアーキテクチャを持つベースラインディープラーニングモデルに対して、いくつかの評価指標によって評価される。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
本研究は,感情コンピューティングのための自己教師付き学習の有用性を示し,学習例の数が小さい場合,自己教師付き学習が最も有用であること,幸福,悲しみ,怒りなどの分類が容易な感情に対して最も顕著であることを示す。
この研究は、生の入力空間で事前学習する従来のアプローチではなく、組み込み特徴表現に適用すると、自己教師付き学習が機能することを示す。
関連論文リスト
- Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。