論文の概要: Incorporating Scene Context and Semantic Labels for Enhanced Group-level Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.21747v1
- Date: Fri, 26 Sep 2025 01:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.109951
- Title: Incorporating Scene Context and Semantic Labels for Enhanced Group-level Emotion Recognition
- Title(参考訳): グループレベルの感情認識のためのシーンコンテキストとセマンティックラベルの導入
- Authors: Qing Zhu, Wangdong Guo, Qirong Mao, Xiaohua Huang, Xiuyan Shao, Wenming Zheng,
- Abstract要約: グループレベルの感情認識(GER)は、複数の個人を含むシーン内の全体的感情を識別することを目的としている。
現在ある手法は、個々の関係をモデル化する際の視覚的な文脈情報の重要性を過小評価している。
本稿では,GER性能を向上させるために,視覚的シーンコンテキストとラベル誘導意味情報を組み込んだ新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.138182195807424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group-level emotion recognition (GER) aims to identify holistic emotions within a scene involving multiple individuals. Current existed methods underestimate the importance of visual scene contextual information in modeling individual relationships. Furthermore, they overlook the crucial role of semantic information from emotional labels for complete understanding of emotions. To address this limitation, we propose a novel framework that incorporates visual scene context and label-guided semantic information to improve GER performance. It involves the visual context encoding module that leverages multi-scale scene information to diversely encode individual relationships. Complementarily, the emotion semantic encoding module utilizes group-level emotion labels to prompt a large language model to generate nuanced emotion lexicons. These lexicons, in conjunction with the emotion labels, are then subsequently refined into comprehensive semantic representations through the utilization of a structured emotion tree. Finally, similarity-aware interaction is proposed to align and integrate visual and semantic information, thereby generating enhanced group-level emotion representations and subsequently improving the performance of GER. Experiments on three widely adopted GER datasets demonstrate that our proposed method achieves competitive performance compared to state-of-the-art methods.
- Abstract(参考訳): グループレベルの感情認識(GER)は、複数の個人を含むシーン内の全体的感情を識別することを目的としている。
現在ある手法は、個々の関係をモデル化する際の視覚的な文脈情報の重要性を過小評価している。
さらに、感情の完全な理解のために感情ラベルから意味情報の重要な役割を見落としている。
この制限に対処するため、GER性能を改善するために、視覚的シーンコンテキストとラベル誘導意味情報を組み込んだ新しいフレームワークを提案する。
視覚的コンテキストエンコーディングモジュールは、複数スケールのシーン情報を利用して、個々の関係を多様にエンコードする。
相補的に、感情意味エンコーディングモジュールは、グループレベルの感情ラベルを使用して、大きな言語モデルにニュアンス化された感情レキシコンを生成する。
これらの語彙と感情ラベルはその後、構造化された感情木を利用して包括的意味表現へと洗練される。
最後に、視覚情報と意味情報の整合と統合を図り、グループレベルの感情表現が強化され、GERの性能が向上する。
3つの広く採用されているGERデータセットの実験により,提案手法は最先端の手法と比較して競争性能が向上することを示した。
関連論文リスト
- CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation [3.5418954219513625]
感情画像コンテンツ生成(EICG)は、与えられた感情カテゴリに基づいて、意味的に明確で、感情的に忠実な画像を生成することを目的としている。
セマンティックコヒーレンスと高いスケーラビリティで有名な新しいパイプラインであるCoEmoGenを提案する。
スケーラビリティを直感的に示すために,情緒的な芸術的イメージの大規模なデータセットであるEmoArtをキュレートする。
論文 参考訳(メタデータ) (2025-08-05T15:04:34Z) - Learning Transferable Facial Emotion Representations from Large-Scale Semantically Rich Captions [39.81062289449454]
EmoCap100Kは,10万以上のサンプルからなる大規模顔の感情キャプションデータセットである。
EmoCapCLIPは,クロスモーダルガイド型ポジティブマイニングモジュールによって強化されたグローバル・ローカル・コントラスト学習フレームワークを組み込んだものである。
論文 参考訳(メタデータ) (2025-07-28T17:28:08Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文 参考訳(メタデータ) (2025-05-30T08:33:32Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis [34.100793905255955]
マルチモーダル・アスペクトベースの感情分類(MASC)は,ソーシャル・プラットフォーム上でのユーザ生成型マルチモーダル・コンテンツの増加による新たな課題である。
既存のMASCにおける多大な努力と重要な成果にもかかわらず、細かな視覚的内容の理解には大きなギャップが残っている。
本稿では,認知的・審美的感情因果理解フレームワークであるChimeraについて述べる。
論文 参考訳(メタデータ) (2025-04-22T12:43:37Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。