論文の概要: EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
- arxiv url: http://arxiv.org/abs/2511.12554v1
- Date: Sun, 16 Nov 2025 11:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.312557
- Title: EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
- Title(参考訳): EmoVerse: MLLMによる視覚的感情分析のための感情表現データセット
- Authors: Yijie Guo, Dexiang Hong, Weidong Chen, Zihan She, Cheng Ye, Xiaojun Chang, Zhendong Mao,
- Abstract要約: EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
- 参考スコア(独自算出の注目度): 61.87711517626139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Emotion Analysis (VEA) aims to bridge the affective gap between visual content and human emotional responses. Despite its promise, progress in this field remains limited by the lack of open-source and interpretable datasets. Most existing studies assign a single discrete emotion label to an entire image, offering limited insight into how visual elements contribute to emotion. In this work, we introduce EmoVerse, a large-scale open-source dataset that enables interpretable visual emotion analysis through multi-layered, knowledge-graph-inspired annotations. By decomposing emotions into Background-Attribute-Subject (B-A-S) triplets and grounding each element to visual regions, EmoVerse provides word-level and subject-level emotional reasoning. With over 219k images, the dataset further includes dual annotations in Categorical Emotion States (CES) and Dimensional Emotion Space (DES), facilitating unified discrete and continuous emotion representation. A novel multi-stage pipeline ensures high annotation reliability with minimal human effort. Finally, we introduce an interpretable model that maps visual cues into DES representations and provides detailed attribution explanations. Together, the dataset, pipeline, and model form a comprehensive foundation for advancing explainable high-level emotion understanding.
- Abstract(参考訳): 視覚感情分析(VEA)は、視覚的内容と人間の感情的反応の間の感情的ギャップを埋めることを目的としている。
その約束にもかかわらず、この分野の進歩は、オープンソースと解釈可能なデータセットの欠如によって制限されている。
既存の研究の多くは、単一の個別の感情ラベルを画像全体に割り当てており、視覚要素が感情にどう貢献するかについての限られた洞察を与えている。
本研究では,多層的知識グラフ型アノテーションによる視覚的感情分析を可能にする大規模オープンソースデータセットであるEmoVerseを紹介する。
感情を背景属性・サブジェクト(B-A-S)に分解し、各要素を視覚領域に接地することで、EmoVerseは単語レベルおよび主観レベルの感情的推論を提供する。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションが含まれており、統一された離散的かつ連続的な感情表現を容易にしている。
新たなマルチステージパイプラインは、人間の最小限の労力で、高いアノテーションの信頼性を保証する。
最後に、視覚的キューをDES表現にマッピングし、詳細な属性説明を提供する解釈可能なモデルを提案する。
データセット、パイプライン、モデルは、説明可能な高レベルの感情理解を促進するための包括的な基盤を形成する。
関連論文リスト
- KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文 参考訳(メタデータ) (2025-05-30T08:33:32Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception [8.54013419046987]
視覚的感情分析のためのクロスモーダルな意味誘導型大規模事前学習フレームワークUniEmoXを紹介する。
UniEmoXは、ペア画像と未ペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現を強化する。
Emo8というタイトルの視覚的感情的データセットを開発し、ほとんどすべての感情的シーンをカバーしています。
論文 参考訳(メタデータ) (2024-09-27T16:12:51Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。