論文の概要: ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions
- arxiv url: http://arxiv.org/abs/2509.05066v1
- Date: Fri, 05 Sep 2025 12:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.590347
- Title: ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions
- Title(参考訳): ToM-SSI : 社会的相互作用における心の理論の評価
- Authors: Matteo Bortoletto, Constantin Ruhdorfer, Andreas Bulling,
- Abstract要約: ToM-SSIは、社会的相互作用と空間力学に富んだ環境でToM機能をテストするために設計された新しいベンチマークである。
このユニークな設計により、私たちは初めて、複数のエージェントの精神状態の並列性について、協調的・障害物的設定と推論を混合して研究することができる。
- 参考スコア(独自算出の注目度): 17.2191603793837
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most existing Theory of Mind (ToM) benchmarks for foundation models rely on variations of the Sally-Anne test, offering only a very limited perspective on ToM and neglecting the complexity of human social interactions. To address this gap, we propose ToM-SSI: a new benchmark specifically designed to test ToM capabilities in environments rich with social interactions and spatial dynamics. While current ToM benchmarks are limited to text-only or dyadic interactions, ToM-SSI is multimodal and includes group interactions of up to four agents that communicate and move in situated environments. This unique design allows us to study, for the first time, mixed cooperative-obstructive settings and reasoning about multiple agents' mental state in parallel, thus capturing a wider range of social cognition than existing benchmarks. Our evaluations reveal that the current models' performance is still severely limited, especially in these new tasks, highlighting critical gaps for future research.
- Abstract(参考訳): 基礎モデルのための多くの既存の心の理論(ToM)ベンチマークは、Sally-Anneテストのバリエーションに依存しており、ToMに関して非常に限られた視点を提供し、人間の社会的相互作用の複雑さを無視している。
ToM-SSIは,社会的相互作用や空間力学に富む環境において,ToMの能力をテストするために設計された新しいベンチマークである。
現在のToMベンチマークはテキストのみまたはダイアディックなインタラクションに限られているが、ToM-SSIはマルチモーダルであり、最大4つのエージェントによるグループインタラクションを含む。
このユニークな設計により、私たちは初めて、複数のエージェントの精神状態を並列に分析し、既存のベンチマークよりも幅広い社会的認知を捉えることができる。
評価の結果、特にこれらの新しいタスクにおいて、現在のモデルの性能は依然として著しく制限されており、将来の研究にとって重要なギャップが浮かび上がっていることが明らかとなった。
関連論文リスト
- Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner [32.33827730707331]
本稿では,ToM推論を段階的にベイズ更新に分解するスケーラブルなベイズToMプランナを提案する。
提案フレームワークでは,より小さな言語モデルでToM固有の推定を専門に行うことのできる,弱いストロング制御を導入している。
提案手法は,マルチモーダルToMベンチマークにおける最先端技術よりも4.6%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-06-02T04:23:45Z) - Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective [24.27038998164743]
Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。
このアプローチにはいくつかの制限があります。
ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
論文 参考訳(メタデータ) (2025-04-15T03:44:43Z) - NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文 参考訳(メタデータ) (2024-04-21T11:51:13Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。