論文の概要: KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval
- arxiv url: http://arxiv.org/abs/2505.24342v1
- Date: Fri, 30 May 2025 08:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.851236
- Title: KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval
- Title(参考訳): KEVER^2:知識に富んだ視覚的感情推論と検索
- Authors: Fanhang Man, Xiaoyue Chen, Huandong Wang, Baining Zhao, Han Li, Xinlei Chen, Yong Li,
- Abstract要約: 感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
- 参考スコア(独自算出の注目度): 35.77379981826482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding what emotions images evoke in their viewers is a foundational goal in human-centric visual computing. While recent advances in vision-language models (VLMs) have shown promise for visual emotion analysis (VEA), several key challenges remain unresolved. Emotional cues in images are often abstract, overlapping, and entangled, making them difficult to model and interpret. Moreover, VLMs struggle to align these complex visual patterns with emotional semantics due to limited supervision and sparse emotional grounding. Finally, existing approaches lack structured affective knowledge to resolve ambiguity and ensure consistent emotional reasoning across diverse visual domains. To address these limitations, we propose \textbf{K-EVER\textsuperscript{2}}, a knowledge-enhanced framework for emotion reasoning and retrieval. Our approach introduces a semantically structured formulation of visual emotion cues and integrates external affective knowledge through multimodal alignment. Without relying on handcrafted labels or direct emotion supervision, K-EVER\textsuperscript{2} achieves robust and interpretable emotion predictions across heterogeneous image types. We validate our framework on three representative benchmarks, Emotion6, EmoSet, and M-Disaster, covering social media imagery, human-centric scenes, and disaster contexts. K-EVER\textsuperscript{2} consistently outperforms strong CNN and VLM baselines, achieving up to a \textbf{19\% accuracy gain} for specific emotions and a \textbf{12.3\% average accuracy gain} across all emotion categories. Our results demonstrate a scalable and generalizable solution for advancing emotional understanding of visual content.
- Abstract(参考訳): 画像が視聴者にもたらす感情を理解することは、人間中心のビジュアルコンピューティングの基本的な目標である。
近年の視覚言語モデル(VLM)の進歩は、視覚感情分析(VEA)への期待を示しているが、いくつかの重要な課題は未解決のままである。
イメージにおける感情の手がかりは、しばしば抽象的で重なり、絡み合っており、モデル化や解釈が困難である。
さらに、VLMは、これらの複雑な視覚パターンを、限られた監督とまばらな感情的根拠によって、感情的な意味と整合させるのに苦労する。
最後に、既存のアプローチでは、あいまいさを解消し、多様な視覚領域にわたって一貫した感情的推論を確保するための構造的な感情的知識が欠如している。
これらの制約に対処するため,感情推論と検索のための知識強化フレームワークである「textbf{K-EVER\textsuperscript{2}}」を提案する。
本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。
手作りラベルや直接感情監視を頼らずに、K-EVER\textsuperscript{2}は不均一なイメージタイプ間で堅牢で解釈可能な感情予測を実現する。
Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
K-EVER\textsuperscript{2} は強い CNN と VLM のベースラインを一貫して上回り、特定の感情に対して \textbf{19\% の精度ゲインを達成し、すべての感情カテゴリで \textbf{12.3\% の平均精度ゲインを達成している。
その結果,視覚的コンテンツの感情的理解を促進するための,スケーラブルで汎用的なソリューションが示された。
関連論文リスト
- Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding [24.884935271771624]
Emotion-Qwenは、感情理解と一般的な視覚言語推論の両方を強化するために設計されたフレームワークである。
Emotion-Qwenは、Mixture of Experts (MoE)パラダイムに基づいた洗練されたハイブリッドを組み込んでいる。
ビデオ感情推論(VER)データセットを構築し,40万本以上のバイリンガルビデオクリップと詳細な記述的アノテーションを用いて,感情・クウェンの感情推論能力をさらに強化する。
論文 参考訳(メタデータ) (2025-05-10T16:15:26Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
本稿では,視覚芸術理解における重要な課題に焦点をあてる。芸術的イメージを与えられたモデルは,特定の人間の感情を誘発するピクセル領域をピンポイントする。
近年の芸術理解の進歩にもかかわらず、ピクセルレベルの感情理解は依然として二重の課題に直面している。
本稿では,感情理解能力を持つセグメンテーションモデルSAMを実現するために,感情刺激・説明モデル(EmoSEM)を提案する。
論文 参考訳(メタデータ) (2025-04-20T15:40:00Z) - UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception [8.54013419046987]
視覚的感情分析のためのクロスモーダルな意味誘導型大規模事前学習フレームワークUniEmoXを紹介する。
UniEmoXは、ペア画像と未ペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現を強化する。
Emo8というタイトルの視覚的感情的データセットを開発し、ほとんどすべての感情的シーンをカバーしています。
論文 参考訳(メタデータ) (2024-09-27T16:12:51Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning [0.6749750044497732]
本研究では,感情認知に関連する「物語キャプション」を構築することで,感情的推論機能を組み込む手法を提案する。
ゼロショット分類器 (CLIP) と微調整型視覚言語モデル (LLaVA) を用いて, 人間の生成した記述子上でのキャプションを構築する2つの方法を提案する。
実験の結果,「最強」の物語記述子と言語モデルの「スロー」推論を組み合わせることは,心の感情理論を実現するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2023-10-30T20:26:12Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。