論文の概要: SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2604.16022v1
- Date: Fri, 17 Apr 2026 12:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.918938
- Title: SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems
- Title(参考訳): SocialGrid: 身体的マルチエージェントシステムにおける計画と社会的推論のベンチマーク
- Authors: Hikaru Shindo, Hanzhao Lin, Lukas Helff, Patrick Schramowski, Kristian Kersting,
- Abstract要約: 本稿では,計画,タスク実行,社会的推論のエージェントを評価するマルチエージェント環境であるSocialGridを紹介する。
評価の結果,最強のオープンモデルでさえ,タスク完了と計画において60%未満の精度で達成できることがわかった。
SocialGridは自動障害分析と詳細なメトリクスを提供し、開発者はエージェントの診断と改善が可能になる。
- 参考スコア(独自算出の注目度): 38.033245595823026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) transition from text processors to autonomous agents, evaluating their social reasoning in embodied multi-agent settings becomes critical. We introduce SocialGrid, an embodied multi-agent environment inspired by Among Us that evaluates LLM agents on planning, task execution, and social reasoning. Our evaluations reveal that even the strongest open model (GPT-OSS-120B) achieves below 60% accuracy in task completion and planning, with agents getting stuck in repetitive behaviors or failing to navigate basic obstacles. Since poor navigation confounds evaluation of social intelligence, SocialGrid offers an optional Planning Oracle to isolate social reasoning from planning deficits. While planning assistance improves task completion, social reasoning remains a bottleneck: agents fail to detect deception at near-random chance regardless of scale, relying on shallow heuristics rather than accumulating behavioral evidence. SocialGrid provides automatic failure analysis and fine-grained metrics, enabling developers to diagnose and improve their agents. We also establish a competitive leaderboard using Elo ratings from adversarial league play.
- Abstract(参考訳): 大規模言語モデル(LLM)がテキストプロセッサから自律エージェントへ移行するにつれ、具体化されたマルチエージェント設定における社会的推論を評価することが重要となる。
そこで我々は,LLMエージェントを計画,タスク実行,社会的推論に応用したマルチエージェント環境であるSocialGridを紹介した。
評価の結果,最強オープンモデル(GPT-OSS-120B)でさえ,タスク完了と計画において60%未満の精度を達成でき,エージェントは繰り返し動作や基本的な障害を回避できないことがわかった。
ナビゲーションが貧弱なため、SocialGridはOracleを計画上の欠陥から切り離すためのプランニングプランニングをオプションで提供している。
エージェントは、行動証拠を蓄積するのではなく、浅いヒューリスティックに頼っているため、規模に関係なく、ほとんどランダムに詐欺を検知できない。
SocialGridは自動障害分析と詳細なメトリクスを提供し、開発者はエージェントの診断と改善が可能になる。
また、対戦リーグプレーのEloレーティングを使用して、競争力のあるリーダーボードを構築します。
関連論文リスト
- Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。
このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。
4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2026-02-09T18:46:12Z) - GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially? [39.436399936544795]
戦略計画・インタラクション・ネゴシエーション(SPIN-Bench)について
SPIN-Benchは、戦略的計画と社会的推論の知性を測定するために設計された、新しいマルチドメイン評価である。
論文 参考訳(メタデータ) (2025-03-16T04:10:53Z) - AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - Towards Socially Intelligent Agents with Mental State Transition and
Human Utility [97.01430011496576]
対話エージェントに精神状態と実用性モデルを取り入れることを提案する。
ハイブリッド精神状態は、対話とイベント観察の両方から情報を抽出する。
ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットから人間の好みを学習するランキングモデルである。
論文 参考訳(メタデータ) (2021-03-12T00:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。