論文の概要: Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.00077v1
- Date: Tue, 26 Aug 2025 19:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.055348
- Title: Amplifying Emotional Signals: Data-Efficient Deep Learning for Robust Speech Emotion Recognition
- Title(参考訳): 感情信号の増幅:ロバスト音声認識のためのデータ効率の良い深層学習
- Authors: Tai Vu,
- Abstract要約: 音声感情認識(SER)は、人間とコンピュータの相互作用において重要な課題である。
我々は,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),CNN(Convolutional Neural Networks)など,機械学習モデルのスイートを開発し,評価する。
我々は、比較的小さなデータセットの制約にもかかわらず、トランスファーラーニングと革新的なデータ拡張手法を戦略的に活用することにより、我々のモデルは印象的なパフォーマンスを達成できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Emotion Recognition (SER) presents a significant yet persistent challenge in human-computer interaction. While deep learning has advanced spoken language processing, achieving high performance on limited datasets remains a critical hurdle. This paper confronts this issue by developing and evaluating a suite of machine learning models, including Support Vector Machines (SVMs), Long Short-Term Memory networks (LSTMs), and Convolutional Neural Networks (CNNs), for automated emotion classification in human speech. We demonstrate that by strategically employing transfer learning and innovative data augmentation techniques, our models can achieve impressive performance despite the constraints of a relatively small dataset. Our most effective model, a ResNet34 architecture, establishes a new performance benchmark on the combined RAVDESS and SAVEE datasets, attaining an accuracy of 66.7% and an F1 score of 0.631. These results underscore the substantial benefits of leveraging pre-trained models and data augmentation to overcome data scarcity, thereby paving the way for more robust and generalizable SER systems.
- Abstract(参考訳): 音声感情認識(SER)は、人間とコンピュータの相互作用において重要な課題である。
ディープラーニングは音声言語処理を進歩させているが、限られたデータセットで高いパフォーマンスを達成することは依然として重要なハードルである。
本稿では,人間の発話における感情の自動分類のための,SVM(Support Vector Machines),LSTM(Long Short-Term Memory Network),CNN(Convolutional Neural Networks)などを含む機械学習モデルのスイートを開発し,評価することで,この問題に対処する。
我々は、比較的小さなデータセットの制約にもかかわらず、トランスファーラーニングと革新的なデータ拡張手法を戦略的に活用することにより、我々のモデルは印象的なパフォーマンスを達成できることを実証した。
我々の最も効果的なモデルであるResNet34アーキテクチャは、RAVDESSとSAVEEデータセットを組み合わせた新しいパフォーマンスベンチマークを確立し、精度は66.7%、F1スコアは0.631である。
これらの結果は、事前訓練されたモデルとデータ拡張を活用することで、データの不足を克服し、より堅牢で一般化可能なSERシステムへの道を開いた、という大きなメリットを浮き彫りにしている。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Breaking Resource Barriers in Speech Emotion Recognition via Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。