論文の概要: Evaluating Vision-Language Models for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2502.05660v1
- Date: Sat, 08 Feb 2025 18:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:16.649830
- Title: Evaluating Vision-Language Models for Emotion Recognition
- Title(参考訳): 感情認識のための視覚言語モデルの評価
- Authors: Sree Bhattacharyya, James Z. Wang,
- Abstract要約: 本稿では、画像から誘発された感情を認識するために、VLM(Large Vision-Language Models)を初めて包括的に評価する。
いくつかの実験を通して、感情認識性能が依存する重要な要因を明らかにし、その過程でVLMが犯した様々な誤りを特徴付ける。
- 参考スコア(独自算出の注目度): 1.7409710986849658
- License:
- Abstract: Large Vision-Language Models (VLMs) have achieved unprecedented success in several objective multimodal reasoning tasks. However, to further enhance their capabilities of empathetic and effective communication with humans, improving how VLMs process and understand emotions is crucial. Despite significant research attention on improving affective understanding, there is a lack of detailed evaluations of VLMs for emotion-related tasks, which can potentially help inform downstream fine-tuning efforts. In this work, we present the first comprehensive evaluation of VLMs for recognizing evoked emotions from images. We create a benchmark for the task of evoked emotion recognition and study the performance of VLMs for this task, from perspectives of correctness and robustness. Through several experiments, we demonstrate important factors that emotion recognition performance depends on, and also characterize the various errors made by VLMs in the process. Finally, we pinpoint potential causes for errors through a human evaluation study. We use our experimental results to inform recommendations for the future of emotion research in the context of VLMs.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、複数の目的的マルチモーダル推論タスクにおいて前例のない成功を収めた。
しかしながら、人間との共感的で効果的なコミュニケーション能力をさらに強化するためには、VLMがどのように処理し、感情を理解するかを改善することが重要である。
感情的理解を改善するための重要な研究の注目にもかかわらず、感情に関連したタスクに対するVLMの詳細な評価が欠如しており、下流での微調整の取り組みに役立てることができる。
本研究では、画像から誘発された感情を認識するためのVLMの総合的な評価を初めて提示する。
本稿では,感情認識を誘発するタスクのベンチマークを作成し,そのタスクのVLMの性能について,正確性と堅牢性の観点から検討する。
いくつかの実験を通して、感情認識性能が依存する重要な要因を明らかにし、その過程でVLMが犯した様々な誤りを特徴付ける。
最後に、人間の評価研究を通じて、エラーの潜在的な原因を特定する。
実験結果を用いて,VLMの文脈における感情研究の将来を示唆する。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文 参考訳(メタデータ) (2024-09-26T23:25:21Z) - EmotionQueen: A Benchmark for Evaluating Empathy of Large Language Models [41.699045246349385]
本稿では,大規模言語モデル(LLM)の感情的インテリジェンスを評価するためのEmotionQueenというフレームワークを提案する。
このフレームワークには、キーイベント認識、混合イベント認識、インプリシット感情認識、意図認識の4つの固有のタスクが含まれている。
実験により、LLMの能力と感情知能の限界について重要な結論が得られた。
論文 参考訳(メタデータ) (2024-09-20T09:44:51Z) - Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文 参考訳(メタデータ) (2024-09-04T01:40:20Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。