論文の概要: S$^3$IT: A Benchmark for Spatially Situated Social Intelligence Test
- arxiv url: http://arxiv.org/abs/2512.19992v1
- Date: Tue, 23 Dec 2025 02:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.718635
- Title: S$^3$IT: A Benchmark for Spatially Situated Social Intelligence Test
- Title(参考訳): S$3$IT: 空間的ソーシャルインテリジェンステストのためのベンチマーク
- Authors: Zhe Sun, Xueyuan Yang, Yujie Lu, Zhenliang Zhang,
- Abstract要約: 本稿では,具体的ソーシャルインテリジェンスを評価するために特別に設計されたベンチマークである空間決定型ソーシャルインテリジェンステスト(S$3$IT)を紹介する。
エージェントは大規模な言語モデル駆動NPCのグループのために3D環境に座席を配置する必要がある。
我々のフレームワークは、制御し難い広い多様なシナリオ空間を生成し、エージェントに活発な対話を通して好みを取得し、自律的な探索を通して環境を知覚し、複雑な制約ネットワーク内で多目的最適化を行うよう促す。
- 参考スコア(独自算出の注目度): 26.79990069295221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of embodied agents into human environments demands embodied social intelligence: reasoning over both social norms and physical constraints. However, existing evaluations fail to address this integration, as they are limited to either disembodied social reasoning (e.g., in text) or socially-agnostic physical tasks. Both approaches fail to assess an agent's ability to integrate and trade off both physical and social constraints within a realistic, embodied context. To address this challenge, we introduce Spatially Situated Social Intelligence Test (S$^{3}$IT), a benchmark specifically designed to evaluate embodied social intelligence. It is centered on a novel and challenging seat-ordering task, requiring an agent to arrange seating in a 3D environment for a group of large language model-driven (LLM-driven) NPCs with diverse identities, preferences, and intricate interpersonal relationships. Our procedurally extensible framework generates a vast and diverse scenario space with controllable difficulty, compelling the agent to acquire preferences through active dialogue, perceive the environment via autonomous exploration, and perform multi-objective optimization within a complex constraint network. We evaluate state-of-the-art LLMs on S$^{3}$IT and found that they still struggle with this problem, showing an obvious gap compared with the human baseline. Results imply that LLMs have deficiencies in spatial intelligence, yet simultaneously demonstrate their ability to achieve near human-level competence in resolving conflicts that possess explicit textual cues.
- Abstract(参考訳): 人間の環境へのエンボディエージェントの統合は、社会的規範と物理的制約の両方を推論する、エンボディエージェントの社会知性を要求する。
しかし、既存の評価では、社会的推論(例えば、テキスト)や社会的に無知な物理的タスクに制限されているため、この統合に対処できない。
どちらのアプローチも、現実的で具体化されたコンテキストの中で、身体的および社会的制約を統合およびトレードオフするエージェントの能力を評価するのに失敗する。
この課題に対処するために,具体的ソーシャルインテリジェンスを評価するためのベンチマークであるS$^{3}$ITを導入する。
エージェントは、多種多様なアイデンティティ、好み、複雑な対人関係を持つ大規模言語モデル駆動(LLM駆動)NPCの3D環境に座席を配置する必要がある。
我々の手続き的に拡張可能なフレームワークは、制御し難い広い多様なシナリオ空間を生成し、エージェントに活発な対話を通じて好みを取得し、自律的な探索を通して環境を知覚し、複雑な制約ネットワーク内で多目的最適化を行うように促す。
我々は、S$^{3}$ITの最先端LCMを評価し、それらがまだこの問題に取り組んでおり、人間のベースラインと比較して明らかなギャップがあることを発見した。
その結果、LLMは空間知能に欠けるが、明示的なテキストの手がかりを持つ対立を解決する上で、人間レベルの能力に近い能力を同時に発揮できることが示唆された。
関連論文リスト
- Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。
このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。
4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2026-02-09T18:46:12Z) - SocialVeil: Probing Social Intelligence of Language Agents under Communication Barriers [30.204481123869186]
textscSocialVeilは、認知差によるコミュニケーション障壁下での社会的相互作用をシミュレートできる社会学習環境である。
相互理解は平均で45%以上減少し,混乱は50%近く増加した。
論文 参考訳(メタデータ) (2026-02-04T23:04:25Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - The Coming Crisis of Multi-Agent Misalignment: AI Alignment Must Be a Dynamic and Social Process [13.959658276224266]
人間の価値観や好みとAIの整合性は依然として重要な課題だ。
エージェントは互いに関与するので、個々の目標と集合目標の両方を達成するために調整する必要があります。
社会構造は、グループや個人の価値を減らしたり、壊したりすることができる。
私たちは、人間、優先的、客観的なアライメントを相互依存的な概念として扱うようにAIコミュニティに呼びかけます。
論文 参考訳(メタデータ) (2025-06-01T16:39:43Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。
CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
論文 参考訳(メタデータ) (2024-11-04T04:41:12Z) - AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。