論文の概要: Speech Emotion Recognition via Entropy-Aware Score Selection
- arxiv url: http://arxiv.org/abs/2508.20796v1
- Date: Thu, 28 Aug 2025 13:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.432683
- Title: Speech Emotion Recognition via Entropy-Aware Score Selection
- Title(参考訳): エントロピーを考慮したスコア選択による音声感情認識
- Authors: ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao,
- Abstract要約: 感情マッピング戦略は、3つの感情カテゴリーを4つの目標感情クラスに翻訳し、予測のコヒーレントな統合を可能にする。
The results on the IEMOCAP and MSP-IMPROV datasets showed that the proposed method provide a practical and reliable enhancement over traditional single-modality systems。
- 参考スコア(独自算出の注目度): 5.180974805760518
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a multimodal framework for speech emotion recognition that leverages entropy-aware score selection to combine speech and textual predictions. The proposed method integrates a primary pipeline that consists of an acoustic model based on wav2vec2.0 and a secondary pipeline that consists of a sentiment analysis model using RoBERTa-XLM, with transcriptions generated via Whisper-large-v3. We propose a late score fusion approach based on entropy and varentropy thresholds to overcome the confidence constraints of primary pipeline predictions. A sentiment mapping strategy translates three sentiment categories into four target emotion classes, enabling coherent integration of multimodal predictions. The results on the IEMOCAP and MSP-IMPROV datasets show that the proposed method offers a practical and reliable enhancement over traditional single-modality systems.
- Abstract(参考訳): 本稿では,エントロピーを意識したスコア選択を利用して,音声とテキストの予測を組み合わせたマルチモーダルな音声感情認識フレームワークを提案する。
提案手法は,wav2vec2.0に基づく音響モデルと,RoBERTa-XLMを用いた感情分析モデルからなる二次パイプラインとを,Whisper-large-v3を介して生成する一次パイプラインを統合する。
本稿では,一次パイプライン予測の信頼性制約を克服するために,エントロピーとバレントロピーしきい値に基づくレイトスコア融合手法を提案する。
感情マッピング戦略は、3つの感情カテゴリーを4つの目標感情クラスに翻訳し、マルチモーダル予測のコヒーレントな統合を可能にする。
The results on the IEMOCAP and MSP-IMPROV datasets showed that the proposed method provide a practical and reliable enhancement over traditional single-modality systems。
関連論文リスト
- Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts [3.8776851334100644]
本稿では、よく知られたデータセット上でこれらの課題に取り組むためのマルチモーダルアプローチを提案する。
本稿では,テキスト用RoBERTa,音声用Wav2Vec2,表情用FacialNet,ビデオ解析用CNN+Transformerアーキテクチャの4つの重要なモダリティ/チャネルを統合するシステムを提案する。
論文 参考訳(メタデータ) (2025-03-09T23:14:19Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - VarArray Meets t-SOT: Advancing the State of the Art of Streaming
Distant Conversational Speech Recognition [36.580955189182404]
本稿では,任意の形状のマイクロホンアレイによってキャプチャされたマルチストーカー重畳音声のための新しいストリーミング自動音声認識(ASR)フレームワークを提案する。
我々のフレームワークであるt-SOT-VAは、配列幾何学非依存連続音声分離(VarArray)とトークンレベルシリアライズ出力トレーニング(t-SOT)に基づくストリーミングマルチストーカーASRという、独立に開発された2つの技術を活用している。
マルチディスタントにおけるAMI開発と評価セットに対して,最先端ワードエラー率13.7%,15.5%を実現している。
論文 参考訳(メタデータ) (2022-09-12T01:22:04Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Translate Reverberated Speech to Anechoic Ones: Speech Dereverberation
with BERT [6.876734825043823]
本研究では,単一チャンネル音声の残響について考察する。
自然言語処理(NLP)領域における双方向変換モデル(BERT)の成功に触発され,そのバックボーンシーケンスモデルとしての適用性を検討した。
論文 参考訳(メタデータ) (2020-07-16T00:45:27Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。