論文の概要: Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey
- arxiv url: http://arxiv.org/abs/2509.24322v1
- Date: Mon, 29 Sep 2025 06:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.777593
- Title: Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey
- Title(参考訳): マルチモーダルな大言語モデルとマルチモーダルな感情認識と推論
- Authors: Yuntao Shou, Tao Meng, Wei Ai, Keqin Li,
- Abstract要約: AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。
本論文は,マルチモーダル感情認識と推論によるMLLMの交点を包括的に調査する最初の試みである。
- 参考スコア(独自算出の注目度): 40.20905051575087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have driven major advances in language understanding, marking a significant step toward artificial general intelligence (AGI). With increasing demands for higher-level semantics and cross-modal fusion, multimodal large language models (MLLMs) have emerged, integrating diverse information sources (e.g., text, vision, and audio) to enhance modeling and reasoning in complex scenarios. In AI for Science, multimodal emotion recognition and reasoning has become a rapidly growing frontier. While LLMs and MLLMs have achieved notable progress in this area, the field still lacks a systematic review that consolidates recent developments. To address this gap, this paper provides a comprehensive survey of LLMs and MLLMs for emotion recognition and reasoning, covering model architectures, datasets, and performance benchmarks. We further highlight key challenges and outline future research directions, aiming to offer researchers both an authoritative reference and practical insights for advancing this domain. To the best of our knowledge, this paper is the first attempt to comprehensively survey the intersection of MLLMs with multimodal emotion recognition and reasoning. The summary of existing methods mentioned is in our Github: \href{https://github.com/yuntaoshou/Awesome-Emotion-Reasoning}{https://github.com/yuntaoshou/Awesome-Emotion-Reasoning}.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)が言語理解に大きな進歩をもたらし,人工知能(AGI)への大きな一歩を踏み出した。
高度なセマンティクスとクロスモーダル融合の要求が高まるにつれて、複雑なシナリオにおけるモデリングと推論を強化するために多様な情報ソース(テキスト、ビジョン、オーディオなど)を統合するマルチモーダルな大規模言語モデル(MLLM)が出現している。
AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。
LLMとMLLMはこの分野で顕著な進歩を遂げているが、近年の進歩をまとめる体系的なレビューはいまだに欠けている。
このギャップに対処するために、モデルアーキテクチャ、データセット、パフォーマンスベンチマークを網羅し、感情認識と推論のためのLLMとMLLMの総合的な調査を行う。
我々はさらに、重要な課題を強調し、今後の研究の方向性を概説し、研究者にこの領域を前進させるための権威的な基準と実践的な洞察を提供することを目指している。
本研究は,MLLMとマルチモーダル感情認識と推論の交点を包括的に調査する最初の試みである。
既存のメソッドの要約はGithubにある。 \href{https://github.com/yuntaoshou/Awesome-Emotion-Reasoning}{https://github.com/yuntaoshou/Awesome-Emotion-Reasoning}。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。