論文の概要: Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2504.07521v1
- Date: Thu, 10 Apr 2025 07:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:19:46.725730
- Title: Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによる感情的推論における境界線を破る理由
- Authors: Yuxiang Lin, Jingdong Sun, Zhi-Qi Cheng, Jue Wang, Haomin Liang, Zebang Cheng, Yifei Dong, Jun-Yan He, Xiaojiang Peng, Xian-Sheng Hua,
- Abstract要約: 感情の反応を駆動する因果的要因に着目した感情解釈(EI)を提案する。
従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。
EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模なベンチマークである。
- 参考スコア(独自算出の注目度): 35.24458725308099
- License:
- Abstract: Most existing emotion analysis emphasizes which emotion arises (e.g., happy, sad, angry) but neglects the deeper why. We propose Emotion Interpretation (EI), focusing on causal factors-whether explicit (e.g., observable objects, interpersonal interactions) or implicit (e.g., cultural context, off-screen events)-that drive emotional responses. Unlike traditional emotion recognition, EI tasks require reasoning about triggers instead of mere labeling. To facilitate EI research, we present EIBench, a large-scale benchmark encompassing 1,615 basic EI samples and 50 complex EI samples featuring multifaceted emotions. Each instance demands rationale-based explanations rather than straightforward categorization. We further propose a Coarse-to-Fine Self-Ask (CFSA) annotation pipeline, which guides Vision-Language Models (VLLMs) through iterative question-answer rounds to yield high-quality labels at scale. Extensive evaluations on open-source and proprietary large language models under four experimental settings reveal consistent performance gaps-especially for more intricate scenarios-underscoring EI's potential to enrich empathetic, context-aware AI applications. Our benchmark and methods are publicly available at: https://github.com/Lum1104/EIBench, offering a foundation for advanced multimodal causal analysis and next-generation affective computing.
- Abstract(参考訳): 既存の感情分析のほとんどは、どの感情が生じるか(例えば、幸せ、悲しみ、怒り)を強調するが、より深い理由を無視する。
感情解釈(EI: Emotion Interpretation, EI:感情解釈)は、感情的反応を誘発する要因(例えば、観察可能な物体、対人的相互作用)や暗黙的(例えば、文化的文脈、オフスクリーンイベント)に焦点をあてる。
従来の感情認識とは異なり、EIタスクは単なるラベル付けではなくトリガーについての推論を必要とする。
EIBenchは1,615の基本的なEIサンプルと50の複雑なEIサンプルを含む大規模ベンチマークである。
各インスタンスは、単純な分類ではなく、理性に基づく説明を要求する。
さらに,視覚言語モデル(VLLM)を反復的な問合せラウンドを通じて誘導し,高品質なラベルを大規模に生成する,CFSA(Coarse-to-Fine Self-Ask)アノテーションパイプラインを提案する。
4つの実験的な設定の下で、オープンソースおよびプロプライエタリな大規模言語モデルに対する広範な評価は、一貫性のあるパフォーマンスギャップを明らかにしている。
私たちのベンチマークとメソッドは、https://github.com/Lum1104/EIBenchで公開されています。
関連論文リスト
- EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [27.195518991292488]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文 参考訳(メタデータ) (2025-02-06T18:13:35Z) - Generative Emotion Cause Explanation in Multimodal Conversations [23.39751445330256]
我々は、新しいタスク textbfMultimodal textbfConversation textbfEmotion textbfCause textbfExplanation (MCECE)を提案する。
マルチモーダル会話シナリオにおいて、ターゲット発話に対する感情的原因を詳細に説明することを目的としている。
FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文 参考訳(メタデータ) (2024-11-01T09:16:30Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Towards a Generative Approach for Emotion Detection and Reasoning [0.7366405857677227]
大規模言語モデルを用いたゼロショット感情検出と感情推論のための新しいアプローチを提案する。
本論文は,テキストに対する感情検出と感情推論の課題に共同で対処するための生成的アプローチを用いた最初の研究である。
論文 参考訳(メタデータ) (2024-08-09T07:20:15Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - ECQED: Emotion-Cause Quadruple Extraction in Dialogs [37.66816413841564]
本稿では,感情に起因した発話対と感情と原因型を検出することを必要とする,感情・因果関係の4次抽出(ECQED)を提案する。
より詳細な感情を導入し,特徴が明らかに対話生成に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:04:30Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。