論文の概要: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
- arxiv url: http://arxiv.org/abs/2510.10078v1
- Date: Sat, 11 Oct 2025 07:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.77065
- Title: Improving Speech Emotion Recognition with Mutual Information Regularized Generative Model
- Title(参考訳): 相互情報正規化生成モデルによる音声感情認識の改善
- Authors: Chung-Soo Ahn, Rajib Rana, Sunil Sivadas, Carlos Busso, Jagath C. Rajapakse,
- Abstract要約: クロスモーダル情報転送と相互情報正規化を支援するデータ拡張フレームワークを提案する。
このフレームワークはIEMOCAP, MSP-IMPROV, MSP-Podcastの3つのベンチマークデータセットでテストした。
- 参考スコア(独自算出の注目度): 28.107097945179905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although speech emotion recognition (SER) research has been advanced, thanks to deep learning methods, it still suffers from obtaining inputs from large quality-labelled training data. Data augmentation methods have been attempted to mitigate this issue, generative models have shown success among them recently. We propose a data augmentation framework that is aided by cross-modal information transfer and mutual information regularization. Mutual information based metric can serve as an indicator for the quality. Furthermore, we expand this data augmentation scope to multimodal inputs, thanks to mutual information ensureing dependency between modalities. Our framework was tested on three benchmark datasets: IEMOCAP, MSP-IMPROV and MSP-Podcast. The implementation was designed to generate input features that are fed into last layer for emotion classification. Our framework improved the performance of emotion prediction against existing works. Also, we discovered that our framework is able to generate new inputs without any cross-modal information.
- Abstract(参考訳): 音声感情認識 (SER) の研究は進んでいるが, 深層学習により, 高品質な学習データから入力を得ることに苦慮している。
この問題を緩和するためにデータ拡張手法が試みられ、生成モデルは近年成功している。
本稿では,相互情報伝達と相互情報正規化によって支援されるデータ拡張フレームワークを提案する。
相互情報に基づくメトリクスは、品質の指標として機能する。
さらに、モダリティ間の依存関係を保証する相互情報により、このデータ拡張範囲をマルチモーダル入力に拡張する。
このフレームワークはIEMOCAP, MSP-IMPROV, MSP-Podcastの3つのベンチマークデータセットでテストした。
この実装は、感情分類のために最後の層に供給される入力機能を生成するように設計されている。
我々のフレームワークは、既存の作品に対する感情予測の性能を改善した。
また、我々のフレームワークは、クロスモーダル情報なしで新しいインプットを生成できることがわかりました。
関連論文リスト
- Generative Data Augmentation in Graph Contrastive Learning for Recommendation [7.878752226948897]
高品質な拡張ビューを生成し、堅牢な自己教師型信号を提供するための新しいフレームワークであるGDA4Recを提案する。
我々は、深層生成モデルを利用したノイズ生成モジュールを用いて、データ拡張のための元のデータの分布を近似する。
GDA4Recはさらにアイテム補完行列を抽出し、アイテム間の潜在相関を特徴付け、追加の自己教師付き信号を提供する。
論文 参考訳(メタデータ) (2025-10-10T08:29:21Z) - PropMEND: Hypernetworks for Knowledge Propagation in LLMs [82.99849359892112]
本稿では,PropMENDという,ハイパーネットワークに基づく知識伝播手法を提案する。
インジェクションされた事実に回答が明記されていないマルチホップ質問に対して,ほぼ2倍の精度で回答を提示する。
我々はまた、ハイパーネットワークの一般化を評価するために、新しいデータセットである Controlled RippleEdit も導入した。
論文 参考訳(メタデータ) (2025-06-10T15:44:19Z) - SPADE: Structured Prompting Augmentation for Dialogue Enhancement in Machine-Generated Text Detection [15.626772502710867]
本研究では,プロンプトベースの正と負のサンプルを用いて,合成対話を検出するための構造化フレームワークSPADEを提案する。
提案手法は14種類の新しい対話データセットを生成し、8つのMGT検出モデルに対してベンチマークを行う。
論文 参考訳(メタデータ) (2025-03-19T09:32:52Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - A Comparative Study of Data Augmentation Techniques for Deep Learning
Based Emotion Recognition [11.928873764689458]
感情認識のための一般的なディープラーニングアプローチを包括的に評価する。
音声信号の長距離依存性が感情認識に重要であることを示す。
スピード/レート向上は、モデル間で最も堅牢なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2022-11-09T17:27:03Z) - Meta Knowledge Condensation for Federated Learning [65.20774786251683]
既存のフェデレートされた学習パラダイムは通常、より強力なモデルを達成するために、中央の解決器で分散モデルを広範囲に交換する。
これにより、特にデータ分散が不均一である場合、サーバと複数のクライアントの間で深刻な通信負荷が発生します。
既存のパラダイムとは違って,フェデレート学習におけるコミュニケーションコストを大幅に削減する新たな視点を導入する。
論文 参考訳(メタデータ) (2022-09-29T15:07:37Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。