論文の概要: S$^3$IT: A Benchmark for Spatially Situated Social Intelligence Test
- arxiv url: http://arxiv.org/abs/2512.19992v1
- Date: Tue, 23 Dec 2025 02:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.718635
- Title: S$^3$IT: A Benchmark for Spatially Situated Social Intelligence Test
- Title(参考訳): S$3$IT: 空間的ソーシャルインテリジェンステストのためのベンチマーク
- Authors: Zhe Sun, Xueyuan Yang, Yujie Lu, Zhenliang Zhang,
- Abstract要約: 本稿では,具体的ソーシャルインテリジェンスを評価するために特別に設計されたベンチマークである空間決定型ソーシャルインテリジェンステスト(S$3$IT)を紹介する。
エージェントは大規模な言語モデル駆動NPCのグループのために3D環境に座席を配置する必要がある。
我々のフレームワークは、制御し難い広い多様なシナリオ空間を生成し、エージェントに活発な対話を通して好みを取得し、自律的な探索を通して環境を知覚し、複雑な制約ネットワーク内で多目的最適化を行うよう促す。
- 参考スコア(独自算出の注目度): 26.79990069295221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of embodied agents into human environments demands embodied social intelligence: reasoning over both social norms and physical constraints. However, existing evaluations fail to address this integration, as they are limited to either disembodied social reasoning (e.g., in text) or socially-agnostic physical tasks. Both approaches fail to assess an agent's ability to integrate and trade off both physical and social constraints within a realistic, embodied context. To address this challenge, we introduce Spatially Situated Social Intelligence Test (S$^{3}$IT), a benchmark specifically designed to evaluate embodied social intelligence. It is centered on a novel and challenging seat-ordering task, requiring an agent to arrange seating in a 3D environment for a group of large language model-driven (LLM-driven) NPCs with diverse identities, preferences, and intricate interpersonal relationships. Our procedurally extensible framework generates a vast and diverse scenario space with controllable difficulty, compelling the agent to acquire preferences through active dialogue, perceive the environment via autonomous exploration, and perform multi-objective optimization within a complex constraint network. We evaluate state-of-the-art LLMs on S$^{3}$IT and found that they still struggle with this problem, showing an obvious gap compared with the human baseline. Results imply that LLMs have deficiencies in spatial intelligence, yet simultaneously demonstrate their ability to achieve near human-level competence in resolving conflicts that possess explicit textual cues.
- Abstract(参考訳): 人間の環境へのエンボディエージェントの統合は、社会的規範と物理的制約の両方を推論する、エンボディエージェントの社会知性を要求する。
しかし、既存の評価では、社会的推論(例えば、テキスト)や社会的に無知な物理的タスクに制限されているため、この統合に対処できない。
どちらのアプローチも、現実的で具体化されたコンテキストの中で、身体的および社会的制約を統合およびトレードオフするエージェントの能力を評価するのに失敗する。
この課題に対処するために,具体的ソーシャルインテリジェンスを評価するためのベンチマークであるS$^{3}$ITを導入する。
エージェントは、多種多様なアイデンティティ、好み、複雑な対人関係を持つ大規模言語モデル駆動(LLM駆動)NPCの3D環境に座席を配置する必要がある。
我々の手続き的に拡張可能なフレームワークは、制御し難い広い多様なシナリオ空間を生成し、エージェントに活発な対話を通じて好みを取得し、自律的な探索を通して環境を知覚し、複雑な制約ネットワーク内で多目的最適化を行うように促す。
我々は、S$^{3}$ITの最先端LCMを評価し、それらがまだこの問題に取り組んでおり、人間のベースラインと比較して明らかなギャップがあることを発見した。
その結果、LLMは空間知能に欠けるが、明示的なテキストの手がかりを持つ対立を解決する上で、人間レベルの能力に近い能力を同時に発揮できることが示唆された。
関連論文リスト
- SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。
CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
論文 参考訳(メタデータ) (2024-11-04T04:41:12Z) - AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。