論文の概要: Not all Blends are Equal: The BLEMORE Dataset of Blended Emotion Expressions with Relative Salience Annotations
- arxiv url: http://arxiv.org/abs/2601.13225v1
- Date: Mon, 19 Jan 2026 16:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.978319
- Title: Not all Blends are Equal: The BLEMORE Dataset of Blended Emotion Expressions with Relative Salience Annotations
- Title(参考訳): すべてのブレンドが等しくなるわけではない: 相対的サリエンスアノテーション付きブレンド感情表現のBLEMOREデータセット
- Authors: Tim Lachmann, Alexandra Israelsson, Christina Tornberg, Teimuraz Saghinadze, Michal Balazia, Philipp Müller, Petri Laukka,
- Abstract要約: BLEMOREは、マルチモーダル(ビデオ、オーディオ)混合感情認識のための新しいデータセットである。
58人の俳優による3000以上のクリップで構成され、6つの基本的な感情と10の異なるブレンドを実行する。
本研究では,2つの混合感情予測タスクにおける最先端映像分類手法の評価を行う。
- 参考スコア(独自算出の注目度): 36.02505876129164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans often experience not just a single basic emotion at a time, but rather a blend of several emotions with varying salience. Despite the importance of such blended emotions, most video-based emotion recognition approaches are designed to recognize single emotions only. The few approaches that have attempted to recognize blended emotions typically cannot assess the relative salience of the emotions within a blend. This limitation largely stems from the lack of datasets containing a substantial number of blended emotion samples annotated with relative salience. To address this shortcoming, we introduce BLEMORE, a novel dataset for multimodal (video, audio) blended emotion recognition that includes information on the relative salience of each emotion within a blend. BLEMORE comprises over 3,000 clips from 58 actors, performing 6 basic emotions and 10 distinct blends, where each blend has 3 different salience configurations (50/50, 70/30, and 30/70). Using this dataset, we conduct extensive evaluations of state-of-the-art video classification approaches on two blended emotion prediction tasks: (1) predicting the presence of emotions in a given sample, and (2) predicting the relative salience of emotions in a blend. Our results show that unimodal classifiers achieve up to 29% presence accuracy and 13% salience accuracy on the validation set, while multimodal methods yield clear improvements, with ImageBind + WavLM reaching 35% presence accuracy and HiCMAE 18% salience accuracy. On the held-out test set, the best models achieve 33% presence accuracy (VideoMAEv2 + HuBERT) and 18% salience accuracy (HiCMAE). In sum, the BLEMORE dataset provides a valuable resource to advancing research on emotion recognition systems that account for the complexity and significance of blended emotion expressions.
- Abstract(参考訳): 人間は、一度に1つの基本的な感情を経験するだけでなく、様々なサリエンスといくつかの感情の混合を経験する。
このような混合感情の重要性にもかかわらず、ほとんどのビデオベースの感情認識アプローチは単一の感情のみを認識するように設計されている。
ブレンドされた感情を認識しようとした数少ないアプローチは、通常、ブレンド内の感情の相対的なサリエンスを評価することができない。
この制限は主に、相対的なサリエンスを付加した大量の混合感情サンプルを含むデータセットの欠如に起因している。
この欠点に対処するために、BLEMOREは、ブレンド内の各感情の相対的サリエンスに関する情報を含む、マルチモーダル(ビデオ、オーディオ)ブレンド感情認識のための新しいデータセットである。
BLEMOREは58人の俳優の3000以上のクリップで構成され、6つの基本的な感情と10の異なるブレンドを実行し、それぞれのブレンドは3つの異なる塩分構成(50/50、70/30、30/70)を持つ。
このデータセットを用いて、2つのブレンドされた感情予測タスクにおいて、(1)与えられたサンプルにおける感情の存在を予測し、(2)ブレンド内の感情の相対的サリエンスを予測する。
以上の結果から, 単型分類器は29%のプレゼンス精度と13%のサリエンス精度を実現し, マルチモーダル法では35%のプレゼンス精度, HiCMAE 18%のサリエンス精度が得られた。
ホールドアウトテストセットでは、最高のモデルは33%のプレゼンス精度(VideoMAEv2 + HuBERT)と18%のサリエンス精度(HiCMAE)を達成する。
まとめると、BLEMOREデータセットは、ブレンドされた感情表現の複雑さと重要性を考慮に入れた感情認識システムの研究を進めるための貴重なリソースを提供する。
関連論文リスト
- TiCAL:Typicality-Based Consistency-Aware Learning for Multimodal Emotion Recognition [31.4260327895046]
マルチモーダル感情認識は、視覚、聴覚、テキストなどの不均一なモダリティを統合することで、人間の感情状態を正確に識別することを目的としている。
既存のアプローチは主に、モデルトレーニングを監督するために統一された感情ラベルに依存しており、しばしば重要な課題であるモーダル間感情衝突を見落としている。
我々は,人間の感情知覚の段階的特性に着想を得た,定型性に基づく連続型マルチモーダル感情認識(TiCAL)を提案する。
論文 参考訳(メタデータ) (2025-11-19T03:49:22Z) - Empaths at SemEval-2025 Task 11: Retrieval-Augmented Approach to Perceived Emotions Prediction [83.88591755871734]
EmoRAGは、SemEval-2025 Task 11, Subtask A: Multi-label Emotion Detectionのためのテキスト中の知覚感情を検出するように設計されたシステムである。
我々は、与えられたテキストスニペットから話者の知覚された感情を予測することに集中し、喜び、悲しみ、恐怖、怒り、驚き、嫌悪感などの感情をラベル付けする。
論文 参考訳(メタデータ) (2025-06-04T19:41:24Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Speech Emotion Detection Based on MFCC and CNN-LSTM Architecture [0.0]
本稿では,最初の音声入力をウェーブプロットとスペクトルに処理して分析し,特徴抽出の対象としてMFCCを含む複数の特徴に集中する。
このアーキテクチャは、テストセットに対して総合的に61.07%の精度を達成し、怒りと中立性の検出はそれぞれ75.31%と71.70%のパフォーマンスに達した。
論文 参考訳(メタデータ) (2025-01-18T06:15:54Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - FAF: A novel multimodal emotion recognition approach integrating face,
body and text [13.485538135494153]
我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。
認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
論文 参考訳(メタデータ) (2022-11-20T14:43:36Z) - MAFW: A Large-scale, Multi-modal, Compound Affective Database for
Dynamic Facial Expression Recognition in the Wild [56.61912265155151]
大規模複合感情データベースMAFWを提案する。
各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。
複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文 参考訳(メタデータ) (2022-08-01T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。