論文の概要: MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
- arxiv url: http://arxiv.org/abs/2411.11235v1
- Date: Mon, 18 Nov 2024 02:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:50.876863
- Title: MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis
- Title(参考訳): MEMO-Bench:人間の感情分析に基づくテキスト・画像・マルチモーダル大言語モデルのマルチベンチマーク
- Authors: Yingjie Zhou, Zicheng Zhang, Jiezhang Cao, Jun Jia, Yanwei Jiang, Farong Wen, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
- 参考スコア(独自算出の注目度): 53.012111671763776
- License:
- Abstract: Artificial Intelligence (AI) has demonstrated significant capabilities in various fields, and in areas such as human-computer interaction (HCI), embodied intelligence, and the design and animation of virtual digital humans, both practitioners and users are increasingly concerned with AI's ability to understand and express emotion. Consequently, the question of whether AI can accurately interpret human emotions remains a critical challenge. To date, two primary classes of AI models have been involved in human emotion analysis: generative models and Multimodal Large Language Models (MLLMs). To assess the emotional capabilities of these two classes of models, this study introduces MEMO-Bench, a comprehensive benchmark consisting of 7,145 portraits, each depicting one of six different emotions, generated by 12 Text-to-Image (T2I) models. Unlike previous works, MEMO-Bench provides a framework for evaluating both T2I models and MLLMs in the context of sentiment analysis. Additionally, a progressive evaluation approach is employed, moving from coarse-grained to fine-grained metrics, to offer a more detailed and comprehensive assessment of the sentiment analysis capabilities of MLLMs. The experimental results demonstrate that existing T2I models are more effective at generating positive emotions than negative ones. Meanwhile, although MLLMs show a certain degree of effectiveness in distinguishing and recognizing human emotions, they fall short of human-level accuracy, particularly in fine-grained emotion analysis. The MEMO-Bench will be made publicly available to support further research in this area.
- Abstract(参考訳): 人工知能(AI)は、様々な分野で重要な能力を示しており、人間とコンピュータの相互作用(HCI)、具体化された知性、仮想デジタル人間の設計とアニメーションといった分野では、実践者も利用者も、感情を理解し表現するAIの能力にますます関心を寄せている。
その結果、AIが人間の感情を正確に解釈できるかどうかという問題は、依然として重要な課題である。
これまで、AIモデルの2つの主要なクラスは、生成モデルとMLLM(Multimodal Large Language Models)という人間の感情分析に関与してきた。
これら2つのモデルの感情能力を評価するために,12のテキスト・トゥ・イメージ(T2I)モデルによって生成された6つの感情のうちの1つを描いた,7,145の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以前の研究とは異なり、MEMO-Benchは感情分析の文脈において、T2IモデルとMLLMの両方を評価するためのフレームワークを提供している。
さらに、粗粒度から細粒度に移行し、MLLMの感情分析能力をより詳細に包括的に評価するプログレッシブ・アセスメント・アプローチが採用されている。
実験結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
一方、MLLMは人間の感情の識別と認識に一定の効果を示すが、特にきめ細かい感情分析において、人間のレベルの正確さに欠ける。
MEMO-Benchは、この分野のさらなる研究を支援するために一般公開される予定である。
関連論文リスト
- EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Fine-grained Affective Processing Capabilities Emerging from Large
Language Models [7.17010996725842]
本稿では,ChatGPTのゼロショット機能について,プロンプトのみを用いて情緒的な計算処理を行う方法について検討する。
b) 感情カテゴリーの観点で意味のある感情表現を持ち, c) 状況の基本的な評価に基づく感情誘発を行うことができることを示す。
論文 参考訳(メタデータ) (2023-09-04T15:32:47Z) - HICEM: A High-Coverage Emotion Model for Artificial Emotional
Intelligence [9.153146173929935]
次世代の人工知能(AEI)は、より深く、より有意義な人間と機械の相互作用に対するユーザの欲求に対処するために、中心的な段階を採っている。
心理学における歴史的焦点である感情の理論とは異なり、感情モデルは記述的な道具である。
この研究は、社会ロボティクス、人間と機械の相互作用、メンタルヘルスケア、計算心理学に幅広い影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-15T15:21:30Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Multitask Learning for Emotion and Personality Detection [17.029426018676997]
本研究では,人格特性と感情行動の相関関係を解明し,新しいマルチタスク学習フレームワークSoGMTLを提案する。
当社の計算効率の高いCNNベースのマルチタスクモデルは、複数の有名なパーソナリティおよび感情データセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-07T03:09:55Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。