論文の概要: MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
- arxiv url: http://arxiv.org/abs/2605.29512v1
- Date: Thu, 28 May 2026 07:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.953544
- Title: MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
- Title(参考訳): MINDGAMES:マルチエージェントLLMにおける社会的・戦略的推論評価のためのライブアリーナ
- Authors: Kevin Wang, Anna Thöni, Benjamin Kempinski, Bobby Cheng, Jianzhu Yao, Benjamin Finch, Leon Guertler, Viraj Nadkarni, Yihan Jiang, Aliaksei Korshuk, Alexander Buyantuev, Ilya Makarov, Siyuan Wu, Yu-Chi Cheng, Yan-Ru Ju, Ti-Rong Wu, I-Hsuan Chu, Yu-Yu Yang, I-Chen Wu, Yitian Huang, Qinlu Cao, Yiheng Sun, Yuhong Dai, Hongkun Yao, Jingxuan Fu, Jiwei Zhang, Hao Liao, Mossimo Ebeling, Govind Arun, Sadhvik Bathini, Mihir S Arya, Avinash Anish, Aditya Ranjan, Kirtana Sunil Phatnani, Paval KS, Vrushali Mehta, Aravind S, Nikhil Arora, Tanya Upadhyay, Amol Bandagale, Yuan Lu, ChunEn Hsiao, YuTing Lin, Arvin Chung, Jerry John Thomas, Mathieu Laurière, Leshem Choshen, Yoram Bachrach, Pramod Viswanath, Maria Polukarov, Cheston Tan, Tal Kachman, Atlas Wang,
- Abstract要約: 大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
- 参考スコア(独自算出の注目度): 54.81359054218573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi-faceted reasoning that real-world multi-agent settings demand. We introduce Mindgames, a multi-game arena and evaluation platform for LLM agents that operationalizes complementary reasoning demands relevant to ``theory of mind'': belief attribution under hidden information, opponent modeling through repeated strategic interaction, cooperative inference under knowledge asymmetries, and sustained deception in social deduction. Built on TextArena, Mindgames provides a unified interaction interface, TrueSkill-based rating, and full trajectory logging across four game environments. We instantiate Mindgames through a 2025 competition cycle hosted at a major AI conference, which assessed 944 submitted agents from 76 teams across four games: Colonel Blotto, Iterated Prisoner's Dilemma, Codenames, and Secret Mafia. Our analysis surfaces both agent-level and evaluation-level limitations: brittle rule adherence remains a major bottleneck, top-performing systems repeatedly rely on explicit structural scaffolding, and leaderboard validity differs sharply across environments. In particular, failure-heavy environments can reward robustness to opponent errors as much as strategic ability, with Secret Mafia exhibiting a pronounced error-survival confound in this cycle. We release a dataset of 29,571 multi-agent games with turn-level observations, actions, and rewards, together with MG-Ref, a deterministic offline tournament protocol that scores new agents against a frozen reference pool of top-ranked, low-error Stage~II submissions under the same error-attribution lens used in this analysis.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話型エージェントとしてますます多くデプロイされているが、対話性の拡張に対する社会的および戦略的推論の能力はいまだによく分かっていない。
既存の評価は、現実のマルチエージェント設定が要求する持続的で多面的な推論をキャプチャできない静的なウィグレットやシングルゲームベンチマークに依存している。
我々は,「心の理論」に関連する補完的推論要求を運用するLDMエージェントのためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介した。
TextArena上に構築されたMindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全なログを提供する。
私たちは2025年に開催された大規模なAIカンファレンスで、Blotto大佐、Iterated Prisoner's Dilemma、Codenames、Secret Mafiaという4つのゲームにわたる76チームから944名のエージェントを提出した。
我々の分析ではエージェントレベルと評価レベルの両方の制限が表面化しており、脆性規則の遵守は依然として大きなボトルネックであり、トップパフォーマンスシステムは明示的な構造的足場に繰り返し依存し、リーダーボードの妥当性は環境によって大きく異なる。
特に、障害の多い環境は、競合するエラーと戦略的な能力にロバスト性を与えることができ、シークレット・マフィアはこのサイクルで明らかなエラー生存の相違を示す。
我々は、ターンレベルの観察、アクション、報酬を含む29,571個のマルチエージェントゲームのデータセットを、MG-Refとともにリリースする。MG-Refは、決定論的オフライントーナメントプロトコルで、トップランクの低エラーステージ〜IIの凍結参照プールに対して新しいエージェントをスコア付けする。
関連論文リスト
- Collaborative Multi-Agent Scripts Generation for Enhancing Imperfect-Information Reasoning in Murder Mystery Games [57.64247186502836]
視覚言語モデル(VLM)は知覚タスクにおいて印象的な能力を示してきたが、マルチプレイヤーゲーム設定下で複雑なマルチホップ推論では劣化している。
本稿では,異なる意図を持つ役割によって提供される部分的手がかりに基づいて,隠れた真実を推論する必要がある,代表的マルチプレイヤータスクであるMurder Mystery Gamesについて検討する。
高品質なロール駆動型マルチプレイヤーゲームスクリプトの評価と合成のための協調型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-13T17:16:23Z) - GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.81487689011341]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文 参考訳(メタデータ) (2025-10-10T02:19:21Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - PLAYER*: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games [21.639516389561837]
我々はMurder Mystery Games(MMG)におけるマルチエージェント会話推論のための推論データセットWellPlayを紹介する。
WellPlayは12のゲームにまたがる1,482の推論質問で構成されている。
MMGにおけるLarge Language Model(LLM)ベースのエージェントのための新しいフレームワークPLAYER*を提案する。
論文 参考訳(メタデータ) (2024-04-26T19:07:30Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。