Fugu-MT 論文翻訳(概要): MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

論文の概要: MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2308.04025v3
Date: Fri, 22 Mar 2024 14:49:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 23:29:06.785188
Title: MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
Title（参考訳）: MSAC:信頼度の高い音声感情認識のための複数音声属性制御法
Authors: Yu Pan, Yuguang Yang, Yuheng Huang, Jixun Yao, Jingjing Yin, Yanni Hu, Heng Lu, Lei Ma, Jianjun Zhao,
Abstract要約: シングルコーパスとクロスコーパスSERの両方を同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetを紹介する。様々な音声属性間の情報重なりを考慮し、異なる音声属性の相関に基づく新しい学習パラダイムを提案する。シングルコーパスSERシナリオとクロスコーパスSERシナリオの両方の実験は、MSAC-SERNetが最先端SERアプローチと比較して優れた性能を発揮することを示している。
参考スコア（独自算出の注目度）: 7.81011775615268
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite notable progress, speech emotion recognition (SER) remains challenging due to the intricate and ambiguous nature of speech emotion, particularly in wild world. While current studies primarily focus on recognition and generalization abilities, our research pioneers an investigation into the reliability of SER methods in the presence of semantic data shifts and explores how to exert fine-grained control over various attributes inherent in speech signals to enhance speech emotion modeling. In this paper, we first introduce MSAC-SERNet, a novel unified SER framework capable of simultaneously handling both single-corpus and cross-corpus SER. Specifically, concentrating exclusively on the speech emotion attribute, a novel CNN-based SER model is presented to extract discriminative emotional representations, guided by additive margin softmax loss. Considering information overlap between various speech attributes, we propose a novel learning paradigm based on correlations of different speech attributes, termed Multiple Speech Attribute Control (MSAC), which empowers the proposed SER model to simultaneously capture fine-grained emotion-related features while mitigating the negative impact of emotion-agnostic representations. Furthermore, we make a first attempt to examine the reliability of the MSAC-SERNet framework using out-of-distribution detection methods. Experiments on both single-corpus and cross-corpus SER scenarios indicate that MSAC-SERNet not only consistently outperforms the baseline in all aspects, but achieves superior performance compared to state-of-the-art SER approaches.
Abstract（参考訳）: 顕著な進歩にもかかわらず、音声感情認識(SER)は、特に野生世界では、複雑な、曖昧な音声感情の性質のため、依然として困難である。本研究は,音声認識と一般化能力に主眼を置いているが,意味的データシフトの存在下でのSER手法の信頼性を調査し,音声信号に固有の諸属性のきめ細かい制御を行い,音声感情モデリングを強化する方法について検討する。本稿では, シングルコーパスとクロスコーパスSERを同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetについて紹介する。具体的には、音声感情属性のみに焦点を絞った新しいCNNベースのSERモデルを示し、付加的辺縁ソフトマックス損失によって導かれる識別的感情表現を抽出する。様々な音声属性間の情報重なりを考慮し,異なる音声属性の相関関係に基づく新しい学習パラダイムであるMultiple Speech Attribute Control (MSAC)を提案する。さらに,アウト・オブ・ディストリビューション検出手法を用いてMSAC-SERNetフレームワークの信頼性について検討する。単体SERシナリオとクロスコーパスSERシナリオの両方の実験では、MSAC-SERNetは全ての面においてベースラインを一貫して上回るだけでなく、最先端SERアプローチよりも優れたパフォーマンスを達成している。

関連論文リスト

ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。 ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。 ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文参考訳（メタデータ） (2026-02-13T08:33:37Z)
Meta-PerSER: Few-Shot Listener Personalized Speech Emotion Recognition via Meta-learning [45.925209699021124]
本稿では,音声感情認識(SER)をパーソナライズするメタ学習フレームワークMeta-PerSERを紹介する。事前学習した自己教師付きモデルからの堅牢な表現を統合することで、まず一般的な感情的手がかりを捉え、それから個人的アノテーションスタイルに微調整する。 IEMOCAPコーパスの実験では、Meta-PerSERは、目に見えないデータシナリオと見えないデータシナリオの両方において、ベースラインメソッドを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-22T04:44:20Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。 4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2025-03-26T18:46:18Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。 AWEは以前、音響的識別可能性の把握に有用であることを示した。以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文参考訳（メタデータ） (2024-02-04T21:24:54Z)
Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。 MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文参考訳（メタデータ） (2023-12-11T12:35:17Z)
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文参考訳（メタデータ） (2023-06-12T16:40:07Z)
UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文参考訳（メタデータ） (2022-11-21T08:46:01Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文参考訳（メタデータ） (2021-06-05T06:19:14Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。