論文の概要: Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models
- arxiv url: http://arxiv.org/abs/2601.14620v1
- Date: Wed, 21 Jan 2026 03:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.225778
- Title: Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models
- Title(参考訳): 曖昧さのスケーリング:音声言語モデルを用いた音声感情認識における人間のアノテーションの増大
- Authors: Wenda Zhang, Hongyu Jin, Siyi Wang, Zhiqiang Wei, Ting Dang,
- Abstract要約: 音声感情認識モデルは典型的には、人間の感情の本質的なあいまいさを覆い隠して、単一の分類ラベルを使用する。
本稿では,高品質な合成アノテーションを生成することで,ALM(Large Audio-Language Models)がアノテーションボトルネックを軽減することができるかを検討する。
本稿では,ALMを利用してSynthetic Perceptual Proxiesを作成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.458242760193203
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Emotion Recognition models typically use single categorical labels, overlooking the inherent ambiguity of human emotions. Ambiguous Emotion Recognition addresses this by representing emotions as probability distributions, but progress is limited by unreliable ground-truth distributions inferred from sparse human annotations. This paper explores whether Large Audio-Language Models (ALMs) can mitigate the annotation bottleneck by generating high-quality synthetic annotations. We introduce a framework leveraging ALMs to create Synthetic Perceptual Proxies, augmenting human annotations to improve ground-truth distribution reliability. We validate these proxies through statistical analysis of their alignment with human distributions and evaluate their impact by fine-tuning ALMs with the augmented emotion distributions. Furthermore, to address class imbalance and enable unbiased evaluation, we propose DiME-Aug, a Distribution-aware Multimodal Emotion Augmentation strategy. Experiments on IEMOCAP and MSP-Podcast show that synthetic annotations enhance emotion distribution, especially in low-ambiguity regions where annotation agreement is high. However, benefits diminish for highly ambiguous emotions with greater human disagreement. This work provides the first evidence that ALMs could address annotation scarcity in ambiguous emotion recognition, but highlights the need for more advanced prompting or generation strategies to handle highly ambiguous cases.
- Abstract(参考訳): 音声感情認識モデルは典型的には、人間の感情の本質的なあいまいさを覆い隠して、単一の分類ラベルを使用する。
あいまいな感情認識は、感情を確率分布として表現することでこの問題に対処するが、不確実な人間のアノテーションから推定される信頼できない地味の分布によって進行は制限される。
本稿では,高品質な合成アノテーションを生成することで,ALM(Large Audio-Language Models)がアノテーションボトルネックを軽減することができるかを検討する。
本稿では,ALMを利用してSynthetic Perceptual Proxiesを作成するフレームワークを提案する。
我々は,これらのプロキシを,人間の分布との整合性に関する統計的解析により検証し,その影響を感情分布を用いた微調整ALMを用いて評価する。
さらに、クラス不均衡に対処し、偏りのない評価を可能にするために、配信対応マルチモーダル感情増強戦略であるDME-Augを提案する。
IEMOCAP と MSP-Podcast の実験では、特にアノテーション合意が高い低曖昧な地域では、合成アノテーションが感情分布を高めることが示されている。
しかし、その利点は、人間の不一致が大きい非常にあいまいな感情に対して減少する。
この研究は、ALMが曖昧な感情認識におけるアノテーションの不足に対処できるという最初の証拠を提供するが、高度に曖昧なケースを扱うためのより高度なプロンプトや生成戦略の必要性を強調している。
関連論文リスト
- EASL: Multi-Emotion Guided Semantic Disentanglement for Expressive Sign Language Generation [7.76229483761977]
感情認識型サイン言語EASL(Emotion-Aware Sign Language)を提案する。
意味的特徴と感情的特徴を別々に抽出するために,段階的な訓練を施した感情意味的不絡みモジュールを導入する。
ポーズデコーディングの間、感情表現はセマンティックな相互作用を誘導し、7クラスの感情的自信スコアを持つサインポーズを生成し、感情的表現認識を可能にする。
論文 参考訳(メタデータ) (2025-11-27T06:04:15Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF [23.474332076771308]
テキスト音声合成は中性音声においてほぼ人間に近い品質を達成しているが、感情的な表現性は依然として課題である。
本稿では,AIフィードバック機構からの強化学習を取り入れたRLAIF-SPAフレームワークを提案する。
Libri 音声データセットの実験によると、RLAIF-SPA は Chat-TTS より優れており、WER は26.1%、SIM-O は9.1%、人的評価は10%以上向上している。
論文 参考訳(メタデータ) (2025-10-16T12:40:37Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - Exemplars-guided Empathetic Response Generation Controlled by the
Elements of Human Communication [88.52901763928045]
そこで本稿では, インターロケータへの共感を伝達する, 造形モデルによる細かな構造的特性の解明に先立って, 模範的手法を提案する。
これらの手法は, 自動評価指標と人的評価指標の両方の観点から, 共感的応答品質の大幅な改善をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2021-06-22T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。