論文の概要: Switchboard-Affect: Emotion Perception Labels from Conversational Speech
- arxiv url: http://arxiv.org/abs/2510.13906v1
- Date: Tue, 14 Oct 2025 21:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.530207
- Title: Switchboard-Affect: Emotion Perception Labels from Conversational Speech
- Title(参考訳): Switchboard-Affect:会話音声からの感情知覚ラベル
- Authors: Amrit Romana, Jaya Narain, Tien Dung Tran, Andrea Davis, Jason Fong, Ramya Rasipuram, Vikramjit Mitra,
- Abstract要約: そこで我々は,Switchboard corpus を自然言語の有望な情報源として認識する。
群集に分類的感情と次元属性のデータセットをラベル付けするように訓練する。
我々は、最先端のSERモデルを評価し、特に一般化が貧弱な感情カテゴリーの様々なパフォーマンスを見いだした。
- 参考スコア(独自算出の注目度): 7.576840738395629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the nuances of speech emotion dataset curation and labeling is essential for assessing speech emotion recognition (SER) model potential in real-world applications. Most training and evaluation datasets contain acted or pseudo-acted speech (e.g., podcast speech) in which emotion expressions may be exaggerated or otherwise intentionally modified. Furthermore, datasets labeled based on crowd perception often lack transparency regarding the guidelines given to annotators. These factors make it difficult to understand model performance and pinpoint necessary areas for improvement. To address this gap, we identified the Switchboard corpus as a promising source of naturalistic conversational speech, and we trained a crowd to label the dataset for categorical emotions (anger, contempt, disgust, fear, sadness, surprise, happiness, tenderness, calmness, and neutral) and dimensional attributes (activation, valence, and dominance). We refer to this label set as Switchboard-Affect (SWB-Affect). In this work, we present our approach in detail, including the definitions provided to annotators and an analysis of the lexical and paralinguistic cues that may have played a role in their perception. In addition, we evaluate state-of-the-art SER models, and we find variable performance across the emotion categories with especially poor generalization for anger. These findings underscore the importance of evaluation with datasets that capture natural affective variations in speech. We release the labels for SWB-Affect to enable further analysis in this domain.
- Abstract(参考訳): 音声感情データセットのキュレーションとラベル付けのニュアンスを理解することは、実世界の応用における音声感情認識(SER)モデルの可能性を評価する上で不可欠である。
ほとんどの訓練と評価データセットは、感情表現が誇張されたり、故意に修正されたりするような、行動的または擬似的な発声(ポッドキャスト音声など)を含む。
さらに、群衆の知覚に基づいてラベル付けされたデータセットは、アノテータに与えられるガイドラインに関する透明性を欠いていることが多い。
これらの要因は、モデルの性能を理解し、改善に必要な領域を特定することを困難にします。
このギャップに対処するため,我々は,Switchboardコーパスを自然主義的な会話音声の有望な情報源として同定し,データセットをカテゴリー的感情(怒り,軽蔑,嫌悪,恐怖,悲しみ,驚き,幸福,優しさ,落ち着き,中立)と次元属性(行動,原子価,支配)にラベル付けるように群衆に訓練した。
このラベルセットをSwitchboard-Affect(SWB-Affect)と呼ぶ。
本研究は,アノテータに提供される定義や,その知覚に影響を及ぼした可能性のある語彙的・パラ言語的手がかりの分析を含む,我々のアプローチを詳細に提示する。
さらに,現在最先端のSERモデルの評価を行い,特に怒りに対する一般化が不十分な感情カテゴリー間での変動性能について検討した。
これらの結果は、音声の自然な感情変化を捉えたデータセットによる評価の重要性を浮き彫りにした。
我々はSWB-Affectのラベルをリリースし、この領域でさらなる分析を可能にする。
関連論文リスト
- Incorporating Scene Context and Semantic Labels for Enhanced Group-level Emotion Recognition [39.138182195807424]
グループレベルの感情認識(GER)は、複数の個人を含むシーン内の全体的感情を識別することを目的としている。
現在ある手法は、個々の関係をモデル化する際の視覚的な文脈情報の重要性を過小評価している。
本稿では,GER性能を向上させるために,視覚的シーンコンテキストとラベル誘導意味情報を組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:25:39Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning [47.02027575768659]
本研究では,個別の感情カテゴリーで注釈付けされた子どもの物語の既存のデータセットに対して,連続的原子価と覚醒ラベルを導入する。
得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。
詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。
論文 参考訳(メタデータ) (2024-06-04T12:17:16Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Unifying the Discrete and Continuous Emotion labels for Speech Emotion
Recognition [28.881092401807894]
音声からの感情検出のためのパラ言語分析では、感情は離散的または次元的(連続的な評価)ラベルと同一視されている。
本研究では,連続的感情特性と離散的感情特性を共同で予測するモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T16:12:31Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。