論文の概要: SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions
- arxiv url: http://arxiv.org/abs/2506.23046v1
- Date: Sun, 29 Jun 2025 00:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.687127
- Title: SoMi-ToM: Evaluating Multi-Perspective Theory of Mind in Embodied Social Interactions
- Title(参考訳): SoMi-ToM: 身体的社会的相互作用における心の多面的理論の評価
- Authors: Xianzhe Fan, Xuhui Zhou, Chuanyang Jin, Kolby Nottingham, Hao Zhu, Maarten Sap,
- Abstract要約: SoMi-ToMベンチマークは,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMを評価するために設計されている。
我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問を含む挑戦的なデータセットを構築した。
その結果,SoMi-ToMではLVLMがヒトよりも有意に低下することが判明した。
- 参考スコア(独自算出の注目度): 21.149270997910403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans continuously infer the states, goals, and behaviors of others by perceiving their surroundings in dynamic, real-world social interactions. However, most Theory of Mind (ToM) benchmarks only evaluate static, text-based scenarios, which have a significant gap compared to real interactions. We propose the SoMi-ToM benchmark, designed to evaluate multi-perspective ToM in embodied multi-agent complex social interactions. This benchmark is based on rich multimodal interaction data generated by the interaction environment SoMi, covering diverse crafting goals and social relationships. Our framework supports multi-level evaluation: (1) first-person evaluation provides multimodal (visual, dialogue, action, etc.) input from a first-person perspective during a task for real-time state inference, (2) third-person evaluation provides complete third-person perspective video and text records after a task for goal and behavior inference. This evaluation method allows for a more comprehensive examination of a model's ToM capabilities from both the subjective immediate experience and the objective global observation. We constructed a challenging dataset containing 35 third-person perspective videos, 363 first-person perspective images, and 1225 expert-annotated multiple-choice questions (three options). On this dataset, we systematically evaluated the performance of human subjects and several state-of-the-art large vision-language models (LVLMs). The results show that LVLMs perform significantly worse than humans on SoMi-ToM: the average accuracy gap between humans and models is 40.1% in first-person evaluation and 26.4% in third-person evaluation. This indicates that future LVLMs need to further improve their ToM capabilities in embodied, complex social interactions.
- Abstract(参考訳): 人間は、動的で現実世界の社会的相互作用において周囲を知覚することで、他人の状態、目標、行動を継続的に推測する。
しかし、ほとんどのベンチマーク(ToM)は静的なテキストベースのシナリオしか評価していないが、実際の相互作用と比べて大きな差がある。
本稿では,マルチエージェント複合社会相互作用におけるマルチパースペクティブToMの評価を目的としたSoMi-ToMベンチマークを提案する。
このベンチマークは、対話環境SoMiによって生成されたリッチなマルチモーダルインタラクションデータに基づいており、多様な工芸目標と社会的関係をカバーしている。
本フレームワークは,(1)実時間状態推定タスクにおいて,一対一の視点から入力するマルチモーダル(視覚,対話,行動など),(2)三対一の評価は,目標および行動推定タスク後の完全な3対一の視点映像とテキスト記録を提供する。
この評価方法により、主観的即時経験と客観的な大域的観察の両方から、モデルのToM能力をより包括的に検証することができる。
我々は,35人の第三者視点映像,633人の一人称視点画像,1225人の専門家による複数選択質問(3つの選択肢)を含む挑戦的なデータセットを構築した。
本データセットでは,人体およびいくつかの最先端の大規模視覚言語モデル(LVLM)の性能を体系的に評価した。
その結果,人間とモデルの平均精度差は,初対人評価では40.1%,第三者評価では26.4%であった。
このことは、将来のLVLMは、具体化された複雑な社会的相互作用におけるToM能力をさらに改善する必要があることを示している。
関連論文リスト
- Judge Anything: MLLM as a Judge Across Any Modality [43.51517213949702]
本稿では,タスクAnything と JudgeAnything という2つのベンチマークを導入し,MLLM の全体性能と判断能力を評価する。
TaskAnythingは15のあらゆるモダリティカテゴリでMMUとMMGの機能を評価し、よく確立されたベンチマークから1500のクエリをキュレートする。
judgeAnythingは、ペア比較とスコア評価の観点から、5段階(GPT-4oやGemini-2.0-Flashなど)の判定能力を評価する。
我々の研究は、より公平な評価プロトコルの必要性と、人間の嗜好との整合性を強調している。
論文 参考訳(メタデータ) (2025-03-21T18:59:20Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。