論文の概要: Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech
- arxiv url: http://arxiv.org/abs/2510.25054v2
- Date: Thu, 30 Oct 2025 01:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 11:34:55.340199
- Title: Evaluating Emotion Recognition in Spoken Language Models on Emotionally Incongruent Speech
- Title(参考訳): 感情伴奏音声における音声言語モデルにおける感情認識の評価
- Authors: Pedro Corrêa, João Lima, Victor Moreno, Lucas Ueda, Paula Dornhofer Paro Costa,
- Abstract要約: 音声感情認識における4つの音声言語モデル(SLM)の評価を行った。
以上の結果から,SLMは音声の感情よりもテキストのセマンティクスに大きく依存していることが示唆された。
- 参考スコア(独自算出の注目度): 0.13048920509133805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in spoken language processing have driven the development of spoken language models (SLMs), designed to achieve universal audio understanding by jointly learning text and audio representations for a wide range of tasks. Although promising results have been achieved, there is growing discussion regarding these models' generalization capabilities and the extent to which they truly integrate audio and text modalities in their internal representations. In this work, we evaluate four SLMs on the task of speech emotion recognition using a dataset of emotionally incongruent speech samples, a condition under which the semantic content of the spoken utterance conveys one emotion while speech expressiveness conveys another. Our results indicate that SLMs rely predominantly on textual semantics rather than speech emotion to perform the task, indicating that text-related representations largely dominate over acoustic representations. We release both the code and the Emotionally Incongruent Synthetic Speech dataset (EMIS) to the community.
- Abstract(参考訳): 音声言語処理の進歩は、幅広いタスクに対してテキストと音声表現を共同で学習することで、普遍的な音声理解を実現するために設計された音声言語モデル(SLM)の開発を推進してきた。
有望な結果が得られたが、これらのモデルの一般化能力と、その内部表現に音声とテキストのモダリティを真に統合する程度について、議論が続いている。
本研究では、感情的不一致な音声サンプルのデータセットを用いて、音声の感情認識作業における4つのSLMを評価する。
以上の結果から,SLMは音声の感情よりもテキストのセマンティクスに大きく依存していることが明らかとなり,テキスト関連表現が音響表現よりも圧倒的に支配的であることが示唆された。
我々は、このコードとEmotionally Incongruent Synthetic Speech dataset(EMIS)をコミュニティにリリースする。
関連論文リスト
- EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models [47.41816926003011]
音声言語モデル(SLM)は、音声言語理解において大きな進歩を遂げている。
SLMが非語彙的声道を完全に知覚できるかどうかは不明であるが、感情的・文脈的要因の双方に合致する共感に反応する。
共感的対話の認知過程をシミュレートする最初の相互関連型マルチレベルベンチマークであるEchoMindを提案する。
論文 参考訳(メタデータ) (2025-10-26T17:15:56Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [47.325269852330884]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文 参考訳(メタデータ) (2025-06-07T14:52:58Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。