Fugu-MT 論文翻訳(概要): ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions

論文の概要: ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions

arxiv url: http://arxiv.org/abs/2509.05066v2
Date: Tue, 16 Sep 2025 12:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 15:46:32.981959
Title: ToM-SSI: Evaluating Theory of Mind in Situated Social Interactions
Title（参考訳）: ToM-SSI : 社会的相互作用における心の理論の評価
Authors: Matteo Bortoletto, Constantin Ruhdorfer, Andreas Bulling,
Abstract要約: ToM-SSIは、社会的相互作用と空間力学に富んだ環境でToM機能をテストするために設計された新しいベンチマークである。このユニークな設計により、私たちは初めて、複数のエージェントの精神状態の並列性について、協調的・障害物的設定と推論を混合して研究することができる。
参考スコア（独自算出の注目度）: 17.2191603793837
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Most existing Theory of Mind (ToM) benchmarks for foundation models rely on variations of the Sally-Anne test, offering only a very limited perspective on ToM and neglecting the complexity of human social interactions. To address this gap, we propose ToM-SSI: a new benchmark specifically designed to test ToM capabilities in environments rich with social interactions and spatial dynamics. While current ToM benchmarks are limited to text-only or dyadic interactions, ToM-SSI is multimodal and includes group interactions of up to four agents that communicate and move in situated environments. This unique design allows us to study, for the first time, mixed cooperative-obstructive settings and reasoning about multiple agents' mental state in parallel, thus capturing a wider range of social cognition than existing benchmarks. Our evaluations reveal that the current models' performance is still severely limited, especially in these new tasks, highlighting critical gaps for future research.
Abstract（参考訳）: 基礎モデルのための多くの既存の心の理論(ToM)ベンチマークは、Sally-Anneテストのバリエーションに依存しており、ToMに関して非常に限られた視点を提供し、人間の社会的相互作用の複雑さを無視している。 ToM-SSIは,社会的相互作用や空間力学に富む環境において,ToMの能力をテストするために設計された新しいベンチマークである。現在のToMベンチマークはテキストのみまたはダイアディックなインタラクションに限られているが、ToM-SSIはマルチモーダルであり、最大4つのエージェントによるグループインタラクションを含む。このユニークな設計により、私たちは初めて、複数のエージェントの精神状態を並列に分析し、既存のベンチマークよりも幅広い社会的認知を捉えることができる。評価の結果、特にこれらの新しいタスクにおいて、現在のモデルの性能は依然として著しく制限されており、将来の研究にとって重要なギャップが浮かび上がっていることが明らかとなった。

関連論文リスト

The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文参考訳（メタデータ） (2025-10-01T07:10:28Z)
Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner [32.33827730707331]
本稿では,ToM推論を段階的にベイズ更新に分解するスケーラブルなベイズToMプランナを提案する。提案フレームワークでは,より小さな言語モデルでToM固有の推定を専門に行うことのできる,弱いストロング制御を導入している。提案手法は,マルチモーダルToMベンチマークにおける最先端技術よりも4.6%の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-02T04:23:45Z)
Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective [24.27038998164743]
Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。このアプローチにはいくつかの制限があります。ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
論文参考訳（メタデータ） (2025-04-15T03:44:43Z)
NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文参考訳（メタデータ） (2024-04-21T11:51:13Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Think Twice: Perspective-Taking Improves Large Language Models' Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2023-11-16T22:49:27Z)
FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文参考訳（メタデータ） (2023-10-24T00:24:11Z)
Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-10-03T15:05:52Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。