論文の概要: Do Multimodal LLMs See Sentiment?
- arxiv url: http://arxiv.org/abs/2508.16873v1
- Date: Sat, 23 Aug 2025 02:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.228222
- Title: Do Multimodal LLMs See Sentiment?
- Title(参考訳): マルチモーダルLLMは感性があるか?
- Authors: Neemias B. da Silva, John Harrison, Rodrigo Minetto, Myriam R. Delgado, Bogdan T. Nassu, Thiago H. Silva,
- Abstract要約: MLLM(Multimodal Large Language Models)の感情推論能力を検討するために,MLLMsentという独自のフレームワークを提案する。
最近確立されたベンチマークの実験は、我々の提案が、最先端の結果を達成することを実証している。
- 参考スコア(独自算出の注目度): 1.990154090209513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how visual content communicates sentiment is critical in an era where online interaction is increasingly dominated by this kind of media on social platforms. However, this remains a challenging problem, as sentiment perception is closely tied to complex, scene-level semantics. In this paper, we propose an original framework, MLLMsent, to investigate the sentiment reasoning capabilities of Multimodal Large Language Models (MLLMs) through three perspectives: (1) using those MLLMs for direct sentiment classification from images; (2) associating them with pre-trained LLMs for sentiment analysis on automatically generated image descriptions; and (3) fine-tuning the LLMs on sentiment-labeled image descriptions. Experiments on a recent and established benchmark demonstrate that our proposal, particularly the fine-tuned approach, achieves state-of-the-art results outperforming Lexicon-, CNN-, and Transformer-based baselines by up to 30.9%, 64.8%, and 42.4%, respectively, across different levels of evaluators' agreement and sentiment polarity categories. Remarkably, in a cross-dataset test, without any training on these new data, our model still outperforms, by up to 8.26%, the best runner-up, which has been trained directly on them. These results highlight the potential of the proposed visual reasoning scheme for advancing affective computing, while also establishing new benchmarks for future research.
- Abstract(参考訳): 視覚的コンテンツがどのように感情を伝えるかを理解することは、ソーシャルプラットフォーム上のこの種のメディアによって、オンラインインタラクションがますます支配される時代において重要である。
しかし、感情認識は複雑なシーンレベルのセマンティクスと密接に結びついているため、これは難しい問題である。
本稿では,画像から直接感情分類を行うMLLMと,自動生成した画像記述に対する感情分析を行うための事前学習LLMと,感傷的画像記述に対するLLMの微調整という3つの視点から,マルチモーダル大言語モデル(MLLM)の感情推論能力を検討するためのフレームワークMLLMsentを提案する。
最近確立されたベンチマーク実験により,提案手法,特に微調整手法は,評価者の同意度と感性極性のカテゴリによって,Lexicon-,CNN-,Transformer-ベースのベースラインを最大30.9%,64.8%,42.4%向上させることができた。
注目すべきは、データセット間のテストにおいて、これらの新しいデータをトレーニングすることなく、私たちのモデルは依然としてパフォーマンスが8.26%向上しています。
これらの結果は、将来の研究のための新しいベンチマークを構築しつつ、感情コンピューティングを進化させるための視覚的推論手法の可能性を強調している。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities [31.293869275511412]
本稿では、画像分類の詳細な分析により、MLLM(Multimodal Large Language Models)を徹底的に再検討する。
この結果から,最新のMLLMは,複数のデータセット上でCLIPスタイルの視覚言語モデルに適合し,さらに優れることがわかった。
論文 参考訳(メタデータ) (2024-12-21T00:46:56Z) - LLM-SEM: A Sentiment-Based Student Engagement Metric Using LLMS for E-Learning Platforms [0.0]
LLM-SEM (Language Model-Based Students Engagement Metric) は,ビデオメタデータと学生コメントの感情分析を利用してエンゲージメントを測定する手法である。
我々は、テキストの曖昧さを軽減し、ビューやいいね!といった重要な特徴を正規化するために、高品質な感情予測を生成する。
包括的メタデータと感情極性スコアを組み合わせることで、コースと授業レベルのエンゲージメントを測定する。
論文 参考訳(メタデータ) (2024-12-18T12:01:53Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。