論文の概要: EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification
- arxiv url: http://arxiv.org/abs/2505.19693v1
- Date: Mon, 26 May 2025 08:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.294036
- Title: EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification
- Title(参考訳): EmoSphere-SER:補助分類による球面表現による音声感情認識の強化
- Authors: Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Seong-Whan Lee,
- Abstract要約: EmoSphere-SERは球面VAD領域の分類を統合してVAD回帰を導出するジョイントモデルである。
本フレームワークでは,VAD値を複数の球面領域に分割した球面座標に変換し,各点がどの球面領域に属しているかを予測する。
- 参考スコア(独自算出の注目度): 26.656512860918262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech emotion recognition predicts a speaker's emotional state from speech signals using discrete labels or continuous dimensions such as arousal, valence, and dominance (VAD). We propose EmoSphere-SER, a joint model that integrates spherical VAD region classification to guide VAD regression for improved emotion prediction. In our framework, VAD values are transformed into spherical coordinates that are divided into multiple spherical regions, and an auxiliary classification task predicts which spherical region each point belongs to, guiding the regression process. Additionally, we incorporate a dynamic weighting scheme and a style pooling layer with multi-head self-attention to capture spectral and temporal dynamics, further boosting performance. This combined training strategy reinforces structured learning and improves prediction consistency. Experimental results show that our approach exceeds baseline methods, confirming the validity of the proposed framework.
- Abstract(参考訳): 音声感情認識は、個別のラベルや、覚醒、原子価、支配(VAD)といった連続した次元を用いて、話者の感情状態を音声信号から予測する。
EmoSphere-SERは、球面VAD領域の分類を統合し、VAD回帰を誘導し、感情予測を改善したジョイントモデルである。
本フレームワークでは,VAD値を複数の球面領域に分割した球面座標に変換し,各点がどの球面領域に属しているかを補助的分類タスクで予測し,回帰過程を導く。
さらに,マルチヘッド自己アテンションを持つ動的重み付け方式とスタイルプーリング層を組み込んで,スペクトルと時間的ダイナミクスを捕捉し,さらなる性能向上を図る。
この統合トレーニング戦略は構造化学習を強化し、予測一貫性を向上させる。
実験の結果,本手法はベースライン法を超越し,提案手法の有効性を確認した。
関連論文リスト
- Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。
SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文 参考訳(メタデータ) (2025-05-25T17:42:53Z) - Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy [8.527959937101826]
我々は、ベルヌーイ確率変数の集合の変動後部を生成するためにニューラルネットワークを訓練する。
対象感情のスコアを高めるために,マスク付きセグメントの韻律的特徴を変化させる。
実験により、この枠組みは、特定の発話のターゲットに対する知覚的感情を変化させることを示した。
論文 参考訳(メタデータ) (2024-08-04T00:47:29Z) - KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Incorporating Dynamic Semantics into Pre-Trained Language Model for
Aspect-based Sentiment Analysis [67.41078214475341]
ABSAの動的アスペクト指向セマンティクスを学ぶために,DR-BERT(Dynamic Re-weighting BERT)を提案する。
具体的には、まずStack-BERT層を主エンコーダとして、文の全体的な意味を理解する。
次に、軽量な動的再重み付けアダプタ(DRA)を導入して微調整する。
論文 参考訳(メタデータ) (2022-03-30T14:48:46Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Facial Action Unit Intensity Estimation via Semantic Correspondence
Learning with Dynamic Graph Convolution [27.48620879003556]
本稿では,特徴マップ間の意味的対応を確立することによって,AUの潜伏関係を自動的に学習する学習フレームワークを提案する。
熱マップ回帰に基づくネットワークでは、特徴写像はAU強度と位置に関連する豊富な意味情報を保存する。
これはAU強度レベルの共起関係を暗黙的に表す特徴チャネル間の相関をモデル化する動機となっている。
論文 参考訳(メタデータ) (2020-04-20T23:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。