論文の概要: Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions
- arxiv url: http://arxiv.org/abs/2510.27195v2
- Date: Tue, 04 Nov 2025 14:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 14:27:17.382662
- Title: Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions
- Title(参考訳): MLLMは部屋を読むことができるか? 多人数ソーシャルインタラクションにおける真理性検証のためのマルチモーダルベンチマーク
- Authors: Caixin Kang, Yifei Huang, Liangyang Ouyang, Mingfang Zhang, Yoichi Sato,
- Abstract要約: 本稿では,ソーシャル推論ゲームWerewolfから派生した新しいデータセットを提案する。
このデータセットは、すべてのステートメントに対して、検証可能な基底構造ラベルを備えた同期ビデオ、テキストを提供する。
我々は最先端のMLLMを評価し,その性能差を明らかにした。
- 参考スコア(独自算出の注目度): 21.974884890305365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI systems become increasingly integrated into human lives, endowing them with robust social intelligence has emerged as a critical frontier. A key aspect of this intelligence is discerning truth from deception, a ubiquitous element of human interaction that is conveyed through a complex interplay of verbal language and non-verbal visual cues. However, automatic deception detection in dynamic, multi-party conversations remains a significant challenge. The recent rise of powerful Multimodal Large Language Models (MLLMs), with their impressive abilities in visual and textual understanding, makes them natural candidates for this task. Consequently, their capabilities in this crucial domain are mostly unquantified. To address this gap, we introduce a new task, Multimodal Interactive Veracity Assessment (MIVA), and present a novel multimodal dataset derived from the social deduction game Werewolf. This dataset provides synchronized video, text, with verifiable ground-truth labels for every statement. We establish a comprehensive benchmark evaluating state-of-the-art MLLMs, revealing a significant performance gap: even powerful models like GPT-4o struggle to distinguish truth from falsehood reliably. Our analysis of failure modes indicates that these models fail to ground language in visual social cues effectively and may be overly conservative in their alignment, highlighting the urgent need for novel approaches to building more perceptive and trustworthy AI systems.
- Abstract(参考訳): AIシステムがますます人間の生活に統合されるにつれて、堅牢なソーシャルインテリジェンスを持つAIが重要なフロンティアとして出現している。
この知性の重要な側面は、言語と非言語的な視覚的手がかりの複雑な相互作用を通して伝達される人間の相互作用のユビキタスな要素である騙しから真実を識別することである。
しかし、動的多人数会話における自動偽造検出は依然として重要な課題である。
近年の強力なマルチモーダル大言語モデル(MLLM)の台頭は、視覚的およびテキスト的理解における印象的な能力によって、このタスクの自然な候補となっている。
したがって、この重要な領域におけるそれらの能力は、ほとんど定量化されていない。
このギャップに対処するために,新たなタスクであるMIVA(Multimodal Interactive Veracity Assessment)を導入し,ソーシャル推論ゲームWerewolfから派生した新しいマルチモーダルデータセットを提案する。
このデータセットは、すべてのステートメントに対して、検証可能な基底構造ラベルを備えた同期ビデオ、テキストを提供する。
GPT-4oのような強力なモデルでさえ、真実と偽造を確実に区別するのに苦労している。
フェールモードの分析は、これらのモデルが視覚的社会的手がかりの言語を効果的に基礎づけることに失敗し、アライメントにおいて過度に保守的であることを示し、より知覚的で信頼性の高いAIシステムを構築するための新しいアプローチが緊急に必要であることを強調している。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Towards Online Multi-Modal Social Interaction Understanding [36.37278022436327]
本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。
マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。
提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文 参考訳(メタデータ) (2025-03-25T17:17:19Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Visual Error Patterns in Multi-Modal AI: A Statistical Approach [0.0]
MLLM(Multi-modal large language model)は、テキストと視覚データの統合に優れるが、曖昧さや不完全な視覚刺激を解釈する際に体系的な課題に直面する。
本研究では3D、回転、顔と面の欠如といった特徴を特徴とする幾何的刺激のデータセットを用いて、統計モデルを用いてこれらの誤差を駆動する要因を分析する。
論文 参考訳(メタデータ) (2024-11-27T01:20:08Z) - Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。