論文の概要: Gems: Group Emotion Profiling Through Multimodal Situational Understanding
- arxiv url: http://arxiv.org/abs/2507.22393v1
- Date: Wed, 30 Jul 2025 05:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.014106
- Title: Gems: Group Emotion Profiling Through Multimodal Situational Understanding
- Title(参考訳): Gems:マルチモーダルな状況理解によるグループ感情プロファイリング
- Authors: Anubhav Kataria, Surbhi Madan, Shreya Ghosh, Tom Gedeon, Abhinav Dhall,
- Abstract要約: 我々は、感情理解を、きめ細かいグループとイベントレベルの感情を粗くするために、きめ細かい個々の感情を予測するタスクとして捉えている。
本稿では,入力シーン,グループメンバ,コンテキスト情報を処理し,共同予測を生成するマルチモーダルスウィン・トランスフォーマとS3Attentionベースのアーキテクチャを利用するGEMSを紹介する。
- 参考スコア(独自算出の注目度): 8.706215352448227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding individual, group and event level emotions along with contextual information is crucial for analyzing a multi-person social situation. To achieve this, we frame emotion comprehension as the task of predicting fine-grained individual emotion to coarse grained group and event level emotion. We introduce GEMS that leverages a multimodal swin-transformer and S3Attention based architecture, which processes an input scene, group members, and context information to generate joint predictions. Existing multi-person emotion related benchmarks mainly focus on atomic interactions primarily based on emotion perception over time and group level. To this end, we extend and propose VGAF-GEMS to provide more fine grained and holistic analysis on top of existing group level annotation of VGAF dataset. GEMS aims to predict basic discrete and continuous emotions (including valence and arousal) as well as individual, group and event level perceived emotions. Our benchmarking effort links individual, group and situational emotional responses holistically. The quantitative and qualitative comparisons with adapted state-of-the-art models demonstrate the effectiveness of GEMS framework on VGAF-GEMS benchmarking. We believe that it will pave the way of further research. The code and data is available at: https://github.com/katariaak579/GEMS
- Abstract(参考訳): 個人、グループ、イベントレベルの感情と文脈情報を理解することは、多人数の社会的状況を分析する上で重要である。
これを実現するために、我々は、きめ細かな個々の感情を予測するタスクとして、感情理解をフレーム化して、きめ細かいグループとイベントレベルの感情を粗いものにする。
本稿では,入力シーン,グループメンバ,コンテキスト情報を処理し,共同予測を生成するマルチモーダルスウィン・トランスフォーマとS3Attentionベースのアーキテクチャを利用するGEMSを紹介する。
既存のマルチパーソン感情関連ベンチマークは、主に時間とグループレベルの感情知覚に基づく原子間相互作用に焦点を当てている。
この目的のために,VGAFデータセットの既存のグループレベルのアノテーションの上に,より微細で包括的な解析を提供するために,VGAF-GEMSを拡張し,提案する。
GEMSは、個人、グループ、イベントレベルの知覚感情と同様に、基本的な離散的、連続的な感情(原子価や刺激を含む)を予測することを目的としている。
ベンチマークの取り組みは、個人、グループ、状況的な感情的な反応をひそかに結びつける。
VGAF-GEMSベンチマークにおけるGEMSフレームワークの有効性を示す。
我々はそれがさらなる研究の道を開くと信じている。
コードとデータは、https://github.com/katariaak579/GEMSで入手可能です。
関連論文リスト
- Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Most Important Person-guided Dual-branch Cross-Patch Attention for Group
Affect Recognition [28.30607307004348]
グループ・エフェクト(Group affect)とは、グループ内の外部刺激によって誘発される主観的な感情を指す。
最重要人物(MIP)の心理的概念を取り入れた解決法を提案する。
本稿では,グローバルイメージとMIPを併用したDual-branch Cross-Patch Attention Transformer(DCAT)を提案する。
論文 参考訳(メタデータ) (2022-12-14T06:51:39Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Self-supervised Group Meiosis Contrastive Learning for EEG-Based Emotion
Recognition [4.763573596218676]
限られたラベルで感情を認識する方法が、新しい研究とアプリケーションのボトルネックになっている。
本稿では,ヒトにおける脳波の刺激的一貫した信号に基づく,自己教師型グループマイオーシスコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T21:20:12Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。