論文の概要: Semantic Differentiation in Speech Emotion Recognition: Insights from Descriptive and Expressive Speech Roles
- arxiv url: http://arxiv.org/abs/2510.03060v1
- Date: Fri, 03 Oct 2025 14:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.431
- Title: Semantic Differentiation in Speech Emotion Recognition: Insights from Descriptive and Expressive Speech Roles
- Title(参考訳): 音声感情認識における意味的差異:記述的・表現的音声の役割から
- Authors: Rongchen Guo, Vincent Francoeur, Isar Nejadgholi, Sylvain Gagnon, Miodrag Bolic,
- Abstract要約: 音声感情認識(SER)は、人間とコンピュータの相互作用を改善するために不可欠である。
音声の文脈的内容を表す記述的意味論と、話者の感情状態を反映する表現的意味論とを区別する。
我々の発見は、人間とAIのインタラクションにおけるSERの応用を知らせ、よりコンテキスト対応のAIシステムへの道を開いた。
- 参考スコア(独自算出の注目度): 4.516156697420418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Emotion Recognition (SER) is essential for improving human-computer interaction, yet its accuracy remains constrained by the complexity of emotional nuances in speech. In this study, we distinguish between descriptive semantics, which represents the contextual content of speech, and expressive semantics, which reflects the speaker's emotional state. After watching emotionally charged movie segments, we recorded audio clips of participants describing their experiences, along with the intended emotion tags for each clip, participants' self-rated emotional responses, and their valence/arousal scores. Through experiments, we show that descriptive semantics align with intended emotions, while expressive semantics correlate with evoked emotions. Our findings inform SER applications in human-AI interaction and pave the way for more context-aware AI systems.
- Abstract(参考訳): 音声感情認識(SER)は、人間とコンピュータの相互作用を改善するために不可欠であるが、その正確さは、音声における感情的ニュアンス(感情的ニュアンス)の複雑さによって制限されている。
本研究では、音声の文脈的内容を表す記述的意味論と、話者の感情状態を反映する表現的意味論を区別する。
感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷的感傷
実験を通して、記述的意味論は意図した感情と一致し、表現的意味論は誘発された感情と相関することを示した。
我々の発見は、人間とAIのインタラクションにおけるSERの応用を知らせ、よりコンテキスト対応のAIシステムへの道を開いた。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Exploiting Emotion-Semantic Correlations for Empathetic Response
Generation [18.284296904390143]
共感応答生成は、対話言語から話者の感情的感情を理解することによって共感応答を生成することを目的としている。
近年の手法では、コミュニケーション者の言語における感情的な言葉を捉え、それらを静的なベクトルとして構築し、ニュアンス化された感情を知覚する。
本研究では,感情・感情相関モデル(ESCM)を提案する。
論文 参考訳(メタデータ) (2024-02-27T11:50:05Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Experiencer-Specific Emotion and Appraisal Prediction [13.324006587838523]
NLPにおける感情分類は、文章や段落などの感情をテキストに割り当てる。
イベントの経験に焦点を合わせ、各イベントに感情(もしあれば)を割り当てます。
経験者の感情と評価のモデルが経験者に依存しないベースラインより優れています。
論文 参考訳(メタデータ) (2022-10-21T16:04:27Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。