論文の概要: EmoSEM: Segment and Explain Emotion Stimuli in Visual Art
- arxiv url: http://arxiv.org/abs/2504.14658v2
- Date: Tue, 22 Apr 2025 02:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 11:46:34.401481
- Title: EmoSEM: Segment and Explain Emotion Stimuli in Visual Art
- Title(参考訳): EmoSEM:視覚芸術における感情刺激のセグメンテーションと説明
- Authors: Jing Zhang, Dan Guo, Zhangbin Li, Meng Wang,
- Abstract要約: 本稿では,視覚芸術理解における重要な課題に焦点をあてる。芸術的イメージを与えられたモデルは,特定の人間の感情を誘発するピクセル領域をピンポイントする。
近年の芸術理解の進歩にもかかわらず、ピクセルレベルの感情理解は依然として二重の課題に直面している。
本稿では,感情理解能力を持つセグメンテーションモデルSAMを実現するために,感情刺激・説明モデル(EmoSEM)を提案する。
- 参考スコア(独自算出の注目度): 25.539022846134543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on a key challenge in visual art understanding: given an art image, the model pinpoints pixel regions that trigger a specific human emotion, and generates linguistic explanations for the emotional arousal. Despite recent advances in art understanding, pixel-level emotion understanding still faces a dual challenge: first, the subjectivity of emotion makes it difficult for general segmentation models like SAM to adapt to emotion-oriented segmentation tasks; and second, the abstract nature of art expression makes it difficult for captioning models to balance pixel-level semantic understanding and emotion reasoning. To solve the above problems, this paper proposes the Emotion stimuli Segmentation and Explanation Model (EmoSEM) to endow the segmentation model SAM with emotion comprehension capability. First, to enable the model to perform segmentation under the guidance of emotional intent well, we introduce an emotional prompt with a learnable mask token as the conditional input for segmentation decoding. Then, we design an emotion projector to establish the association between emotion and visual features. Next, more importantly, to address emotion-visual stimuli alignment, we develop a lightweight prefix projector, a module that fuses the learned emotional mask with the corresponding emotion into a unified representation compatible with the language model. Finally, we input the joint visual, mask, and emotional tokens into the language model and output the emotional explanations. It ensures that the generated interpretations remain semantically and emotionally coherent with the visual stimuli. The method innovatively realizes end-to-end modeling from low-level pixel features to high-level emotion interpretation, providing the first interpretable fine-grained analysis framework for artistic emotion computing. Extensive experiments validate the effectiveness of our model.
- Abstract(参考訳): 本稿では,視覚芸術の理解において重要な課題である,特定の人間の感情を誘発するピクセル領域をピンポイントし,感情の覚醒のための言語的説明を生成する。
第一に、感情の主観性は、SAMのような一般的なセグメンテーションモデルが感情指向のセグメンテーションタスクに適応することを難しくし、第二に、アート表現の抽象的な性質は、キャプションモデルがピクセルレベルのセグメンテーション理解と感情推論のバランスをとるのを難しくする。
そこで本研究では,感情理解能力を持つセグメンテーションモデルSAMを実現するために,感情刺激セグメンテーション・説明モデル(EmoSEM)を提案する。
まず,感情的意図の指導の下でセグメンテーションをうまく行うために,セグメンテーション復号のための条件入力として,学習可能なマスクトークンを用いた感情的プロンプトを導入する。
そして,感情プロジェクタを設計し,感情と視覚的特徴の関連性を確立する。
次に、感情・視覚刺激のアライメントに対処するため、学習した感情マスクと対応する感情を融合させ、言語モデルと互換性のある統一表現にするための軽量なプレフィックスプロジェクタを開発する。
最後に,共同視覚,マスク,感情的トークンを言語モデルに入力し,感情的説明を出力する。
生成した解釈が意味的にも感情的にも視覚刺激と一致していることを保証する。
低レベルの画素特徴から高レベルの感情解釈へのエンド・ツー・エンド・モデリングを革新的に実現し、芸術的感情計算のための最初の微粒化分析フレームワークを提供する。
大規模な実験により、我々のモデルの有効性が検証された。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model [23.26111054485357]
連続感情画像コンテンツ生成(C-EICG)の新たな課題について紹介する。
本稿では,テキストプロンプトとValence-Arousal値に基づいて画像を生成する感情画像生成モデルであるEmotiCrafterを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:41:37Z) - MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。
現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。
本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。
DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2025-01-03T13:43:21Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - High-Level Context Representation for Emotion Recognition in Images [4.987022981158291]
画像から高レベルな文脈表現を抽出する手法を提案する。
このモデルは、この表現と感情を関連付けるために、1つのキューと1つのエンコードストリームに依存している。
我々のアプローチは従来のモデルよりも効率的であり、感情認識に関連する現実の問題に対処するために容易に展開できる。
論文 参考訳(メタデータ) (2023-05-05T13:20:41Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。