論文の概要: Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?
- arxiv url: http://arxiv.org/abs/2512.17394v1
- Date: Fri, 19 Dec 2025 09:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.333107
- Title: Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?
- Title(参考訳): 視覚言語モデルは心的推論のクロスカルチャー理論か?
- Authors: Zabir Al Nazi, G M Shahariar, Abrar Hossain, Wei Peng,
- Abstract要約: 多様な文化的文脈におけるToM推論の探索を目的とした5095の質問を含む新しい評価ベンチマークであるCulturalToM-VQAを紹介する。
このデータセットは、儀式、服装、ジェスチャー、対人ダイナミクスといった文化的に根ざした手がかりをキャプチャする。
得られたデータセットは、精神状態の帰属、虚偽の信念の推論、ノンリテラルコミュニケーション、社会的規範違反、視点調整、マルチエージェント推論など、様々な心的側面の理論を網羅している。
- 参考スコア(独自算出の注目度): 3.431028590163186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM) -- the ability to attribute beliefs, desires, and emotions to others -- is fundamental for human social intelligence, yet remains a major challenge for artificial agents. Existing Vision-Language Models (VLMs) are increasingly applied in socially grounded tasks, but their capacity for cross-cultural ToM reasoning is largely unexplored. In this work, we introduce CulturalToM-VQA, a new evaluation benchmark containing 5095 questions designed to probe ToM reasoning across diverse cultural contexts through visual question answering. The dataset captures culturally grounded cues such as rituals, attire, gestures, and interpersonal dynamics, enabling systematic evaluation of ToM reasoning beyond Western-centric benchmarks. Our dataset is built through a VLM-assisted human-in-the-loop pipeline, where human experts first curate culturally rich images across traditions, rituals, and social interactions; a VLM then assist in generating structured ToM-focused scene descriptions, which are refined into question-answer pairs spanning a taxonomy of six ToM tasks and four graded complexity levels. The resulting dataset covers diverse theory of mind facets such as mental state attribution, false belief reasoning, non-literal communication, social norm violations, perspective coordination, and multi-agent reasoning.
- Abstract(参考訳): 信念、欲望、感情を他人に帰属させる能力である心の理論(ToM)は、人間の社会的知性にとって基本的なものであるが、それでもなお、人工エージェントにとって大きな課題である。
既存のビジョン・ランゲージ・モデル(VLM)は、社会的に根ざしたタスクにますます適用されているが、異文化間のToM推論の能力はほとんど探索されていない。
本稿では,視覚的質問応答による多様な文化的文脈におけるToM推論を探索する5095の質問を含む新しい評価ベンチマークであるCulturalToM-VQAを紹介する。
このデータセットは、儀式、服装、ジェスチャー、対人ダイナミクスといった文化的に根ざしたキューをキャプチャし、西洋中心のベンチマークを超えてToM推論を体系的に評価することを可能にする。
我々のデータセットは、VLMが支援する人間のループパイプラインを通じて構築され、人間の専門家がまず伝統、儀式、社会的相互作用を通じて文化的に豊かな画像をキュレートする。
得られたデータセットは、精神状態の帰属、虚偽の信念の推論、ノンリテラルコミュニケーション、社会的規範違反、視点調整、マルチエージェント推論など、様々な心的側面の理論を網羅している。
関連論文リスト
- Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems [17.381122321801556]
メタ認知の心理学理論に触発されたマルチエージェントフレームワークであるMetaMindを紹介する。
我々のフレームワークは3つの挑戦的なベンチマークで最先端のパフォーマンスを実現し、実世界の社会的シナリオは35.7%改善した。
この研究は、共感的対話や文化的に敏感な相互作用に応用して、人間のような社会知性に向けてAIシステムを前進させる。
論文 参考訳(メタデータ) (2025-05-25T02:32:57Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
本稿では,大規模言語モデルのマインド能力理論を評価するためのベンチマークであるPersuasiveToMを提案する。
フレームワークには、ToM ReasoningとToM Applicationという2つのコアタスクが含まれています。
PersuasiveToMの目的は、複雑な心理的活動に焦点を当てたLSMのToM推論能力を効果的に評価することである。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models [3.9532244541907793]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対して精神状態を推論し、評価する認知能力のこと。
大規模言語モデル(LLM)が多種多様な言語や文化的文脈でToMをどの程度示すかは、いまだに不明である。
本稿では,このギャップに対処することを目的とした多言語ToM機能に関する総合的研究を紹介する。
論文 参考訳(メタデータ) (2024-11-24T22:37:59Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。