論文の概要: MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
- arxiv url: http://arxiv.org/abs/2411.11235v1
- Date: Mon, 18 Nov 2024 02:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:50.876863
- Title: MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
- Title(参考訳): MEMO-Bench:人間の感情分析に基づくテキスト・画像・マルチモーダル大言語モデルのマルチベンチマーク
- Authors: Yingjie Zhou, Zicheng Zhang, Jiezhang Cao, Jun Jia, Yanwei Jiang, Farong Wen, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
- 参考スコア(独自算出の注目度): 53.012111671763776
- License:
- Abstract: Artificial Intelligence (AI) has demonstrated significant capabilities in various fields, and in areas such as human-computer interaction (HCI), embodied intelligence, and the design and animation of virtual digital humans, both practitioners and users are increasingly concerned with AI's ability to understand and express emotion. Consequently, the question of whether AI can accurately interpret human emotions remains a critical challenge. To date, two primary classes of AI models have been involved in human emotion analysis: generative models and Multimodal Large Language Models (MLLMs). To assess the emotional capabilities of these two classes of models, this study introduces MEMO-Bench, a comprehensive benchmark consisting of 7,145 portraits, each depicting one of six different emotions, generated by 12 Text-to-Image (T2I) models. Unlike previous works, MEMO-Bench provides a framework for evaluating both T2I models and MLLMs in the context of sentiment analysis. Additionally, a progressive evaluation approach is employed, moving from coarse-grained to fine-grained metrics, to offer a more detailed and comprehensive assessment of the sentiment analysis capabilities of MLLMs. The experimental results demonstrate that existing T2I models are more effective at generating positive emotions than negative ones. Meanwhile, although MLLMs show a certain degree of effectiveness in distinguishing and recognizing human emotions, they fall short of human-level accuracy, particularly in fine-grained emotion analysis. The MEMO-Bench will be made publicly available to support further research in this area.
- Abstract(参考訳): 人工知能(AI)は、様々な分野で重要な能力を示しており、人間とコンピュータの相互作用(HCI)、具体化された知性、仮想デジタル人間の設計とアニメーションといった分野では、実践者も利用者も、感情を理解し表現するAIの能力にますます関心を寄せている。
その結果、AIが人間の感情を正確に解釈できるかどうかという問題は、依然として重要な課題である。
これまで、AIモデルの2つの主要なクラスは、生成モデルとMLLM(Multimodal Large Language Models)という人間の感情分析に関与してきた。
これら2つのモデルの感情能力を評価するために,12のテキスト・トゥ・イメージ(T2I)モデルによって生成された6つの感情のうちの1つを描いた,7,145の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以前の研究とは異なり、MEMO-Benchは感情分析の文脈において、T2IモデルとMLLMの両方を評価するためのフレームワークを提供している。
さらに、粗粒度から細粒度に移行し、MLLMの感情分析能力をより詳細に包括的に評価するプログレッシブ・アセスメント・アプローチが採用されている。
実験結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
一方、MLLMは人間の感情の識別と認識に一定の効果を示すが、特にきめ細かい感情分析において、人間のレベルの正確さに欠ける。
MEMO-Benchは、この分野のさらなる研究を支援するために一般公開される予定である。
関連論文リスト
- EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [27.195518991292488]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文 参考訳(メタデータ) (2025-02-06T18:13:35Z) - Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - M2SE: A Multistage Multitask Instruction Tuning Strategy for Unified Sentiment and Emotion Analysis [5.3848462080869215]
汎用MLLMのためのマルチステージマルチタスク・インストラクション・チューニング戦略であるM2SEを提案する。
マルチモーダル感情分析、感情認識、表情認識、感情理由推論、感情因果抽出といったタスクでモデルをトレーニングするために、組み合わせたアプローチを採用する。
我々のモデルであるEmotion Universe (EmoVerse) は、修正なしにMLLMフレームワーク上に構築されているが、M2SE戦略でトレーニングすると、これらのタスク間で大幅な改善が達成される。
論文 参考訳(メタデータ) (2024-12-11T02:55:00Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Multitask Learning for Emotion and Personality Detection [17.029426018676997]
本研究では,人格特性と感情行動の相関関係を解明し,新しいマルチタスク学習フレームワークSoGMTLを提案する。
当社の計算効率の高いCNNベースのマルチタスクモデルは、複数の有名なパーソナリティおよび感情データセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-07T03:09:55Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。