論文の概要: Can MLLMs Read the Room? A Multimodal Benchmark for Assessing Deception in Multi-Party Social Interactions
- arxiv url: http://arxiv.org/abs/2511.16221v1
- Date: Thu, 20 Nov 2025 10:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.577396
- Title: Can MLLMs Read the Room? A Multimodal Benchmark for Assessing Deception in Multi-Party Social Interactions
- Title(参考訳): MLLMは部屋を読むことができるか? 多人数の社会的相互作用における虚偽評価のためのマルチモーダルベンチマーク
- Authors: Caixin Kang, Yifei Huang, Liangyang Ouyang, Mingfang Zhang, Ruicong Liu, Yoichi Sato,
- Abstract要約: 高度な推論能力にもかかわらず、最先端のマルチモーダル大言語モデル(MLLM)は明らかに人間の知能のコアコンポーネントを欠いている。
新しいタスクであるMIDA(Multimodal Interactive Deception Assessment)を導入する。
本論文では,各文に対して,テキストとビデオの同期化を実現する新しいマルチモーダルデータセットを提案する。
- 参考スコア(独自算出の注目度): 26.074938251210842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their advanced reasoning capabilities, state-of-the-art Multimodal Large Language Models (MLLMs) demonstrably lack a core component of human intelligence: the ability to `read the room' and assess deception in complex social interactions. To rigorously quantify this failure, we introduce a new task, Multimodal Interactive Deception Assessment (MIDA), and present a novel multimodal dataset providing synchronized video and text with verifiable ground-truth labels for every statement. We establish a comprehensive benchmark evaluating 12 state-of-the-art open- and closed-source MLLMs, revealing a significant performance gap: even powerful models like GPT-4o struggle to distinguish truth from falsehood reliably. Our analysis of failure modes indicates that these models fail to effectively ground language in multimodal social cues and lack the ability to model what others know, believe, or intend, highlighting the urgent need for novel approaches to building more perceptive and trustworthy AI systems. To take a step forward, we design a Social Chain-of-Thought (SoCoT) reasoning pipeline and a Dynamic Social Epistemic Memory (DSEM) module. Our framework yields performance improvement on this challenging task, demonstrating a promising new path toward building MLLMs capable of genuine human-like social reasoning.
- Abstract(参考訳): 高度な推論能力にもかかわらず、最先端のマルチモーダル大言語モデル(MLLM)は明らかに人間の知性の中核的な要素を欠いている。
この失敗を厳密に定量化するために、新しいタスクであるMultimodal Interactive Deception Assessment (MIDA)を導入し、各ステートメントに対して検証済みの地上真実ラベルと同期されたビデオとテキストを提供する新しいマルチモーダルデータセットを提案する。
我々は12の最先端のオープンソースおよびクローズドソースMLLMを評価する包括的なベンチマークを構築し、大きなパフォーマンスギャップを明らかにした。
フェールモードの分析は、これらのモデルがマルチモーダルな社会的手段において効果的に言語を基礎づけることに失敗し、他人が知っていること、信じていること、意図をモデル化する能力が欠如していることを示し、より知覚的で信頼できるAIシステムを構築するための新しいアプローチの必要性を強調している。
一歩前進するために、我々はSocial Chain-of-Thought (SoCoT)推論パイプラインとDynamic Social Epistemic Memory (DSEM)モジュールを設計する。
この課題に対して,本フレームワークは,真に人間的な社会的推論が可能なMLLMの構築に向けた,有望な新たな道筋を示す。
関連論文リスト
- Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions [21.974884890305365]
本稿では,ソーシャル推論ゲームWerewolfから派生した新しいデータセットを提案する。
このデータセットは、すべてのステートメントに対して、検証可能な基底構造ラベルを備えた同期ビデオ、テキストを提供する。
我々は最先端のMLLMを評価し,その性能差を明らかにした。
論文 参考訳(メタデータ) (2025-10-31T05:36:36Z) - MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。