論文の概要: Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.19595v1
- Date: Tue, 23 Sep 2025 21:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.61669
- Title: Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models
- Title(参考訳): 顔の解剖:大きな視覚・言語モデルによる身体的感情の語り方
- Authors: Mohammad Saim, Phan Anh Duong, Cat Luong, Aniket Bhanderi, Tianyu Jiang,
- Abstract要約: 身体的LVLM感情ナラティブ(ELENA)を生成するための枠組みを提案する。
これらは、感情的な反応に関与する健康な身体の部分に焦点を当てた、明確に定義された多層テキスト出力である。
我々は,我々の採用したフレームワークが,顔に写った画像の感情を効果的に認識し,微調整をせずにベースラインを上回り得ることを観察した。
- 参考スコア(独自算出の注目度): 1.8349570933241344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The embodiment of emotional reactions from body parts contains rich information about our affective experiences. We propose a framework that utilizes state-of-the-art large vision-language models (LVLMs) to generate Embodied LVLM Emotion Narratives (ELENA). These are well-defined, multi-layered text outputs, primarily comprising descriptions that focus on the salient body parts involved in emotional reactions. We also employ attention maps and observe that contemporary models exhibit a persistent bias towards the facial region. Despite this limitation, we observe that our employed framework can effectively recognize embodied emotions in face-masked images, outperforming baselines without any fine-tuning. ELENA opens a new trajectory for embodied emotion analysis across the modality of vision and enriches modeling in an affect-aware setting.
- Abstract(参考訳): 身体部分からの感情反応の具体化は、私たちの感情的な経験に関する豊富な情報を含んでいる。
本研究では、最先端の大規模視覚言語モデル(LVLM)を用いて、身体的LVLM感情ナラティブ(ELENA)を生成するフレームワークを提案する。
これらは、よく定義された多層テキスト出力であり、主に感情的な反応に関与する健全な身体の部分に焦点を当てた記述を含んでいる。
また、注意図を用いて、現代のモデルが顔領域に対して永続的な偏見を示すことを観察する。
この制限にもかかわらず、我々の採用するフレームワークは、顔のマスキング画像の具体的感情を効果的に認識でき、微調整なしでベースラインを上回ります。
ELENAは、視覚のモダリティを越えて感情分析を具現化するための新しい軌道を開き、感情認識環境でのモデリングを強化する。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - EmoSEM: Segment and Explain Emotion Stimuli in Visual Art [25.539022846134543]
芸術的イメージが与えられたモデルでは、特定の人間の感情をトリガーするピクセル領域をピンポイントし、それに対する言語学的説明を生成する。
本稿では,感情理解能力を持つセグメンテーションフレームワークを実現するために,感情刺激・説明モデル(EmoSEM)モデルを提案する。
本手法は,低レベルの画素特徴から高レベルの感情解釈へのエンド・ツー・エンド・モデリングを実現し,視覚的感情分析のための第1の微粒化フレームワークを提供する。
論文 参考訳(メタデータ) (2025-04-20T15:40:00Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。