論文の概要: MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind
- arxiv url: http://arxiv.org/abs/2507.04415v1
- Date: Sun, 06 Jul 2025 15:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.171916
- Title: MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind
- Title(参考訳): MOMENTS: 心の理論のための総合的マルチモーダルベンチマーク
- Authors: Emilio Villa-Cueva, S M Masrur Ahmed, Rendi Chevi, Jan Christian Blaise Cruz, Kareem Elzeky, Fermin Cristobal, Alham Fikri Aji, Skyler Wang, Rada Mihalcea, Thamar Solorio,
- Abstract要約: 心の理論は、社会的にインテリジェントなマルチモーダルエージェントを構築するために不可欠である。
マルチモーダルな大規模言語モデルのToM能力を評価するためのベンチマークであるMOMENTSを紹介する。
- 参考スコア(独自算出の注目度): 28.25540132218273
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding Theory of Mind is essential for building socially intelligent multimodal agents capable of perceiving and interpreting human behavior. We introduce MOMENTS (Multimodal Mental States), a comprehensive benchmark designed to assess the ToM capabilities of multimodal large language models (LLMs) through realistic, narrative-rich scenarios presented in short films. MOMENTS includes over 2,344 multiple-choice questions spanning seven distinct ToM categories. The benchmark features long video context windows and realistic social interactions that provide deeper insight into characters' mental states. While the visual modality generally enhances model performance, current systems still struggle to integrate it effectively, underscoring the need for further research into AI's multimodal understanding of human behavior.
- Abstract(参考訳): 心の理論を理解することは、人間の行動を理解し解釈できる社会的に知的なマルチモーダルエージェントを構築するのに不可欠である。
マルチモーダル大規模言語モデル(LLM)のToM能力を評価するための総合ベンチマークであるMOMENTS(Multimodal Mental States)を紹介する。
MOMENTSには、7つの異なるToMカテゴリにまたがる2,344以上の多重選択質問が含まれている。
このベンチマークでは、長いビデオコンテキストウィンドウと、キャラクターの精神状態に関する深い洞察を提供する現実的な社会的相互作用が特徴である。
視覚的モダリティは一般的にモデルの性能を高めるが、現在のシステムはそれを効果的に統合することに苦慮し、AIによる人間の行動に対するマルチモーダルな理解に関するさらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - MuMA-ToM: Multi-modal Multi-Agent Theory of Mind [10.079620078670589]
マルチモーダルなマルチエージェント理論である MuMA-ToM を導入する。
本研究では,現実的な家庭環境における人々のマルチモーダル行動について,ビデオとテキストで記述する。
そして、他人の目標、信念、信念について質問する。
論文 参考訳(メタデータ) (2024-08-22T17:41:45Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。