論文の概要: WereWolf-Plus: An Update of Werewolf Game setting Based on DSGBench
- arxiv url: http://arxiv.org/abs/2506.12841v1
- Date: Sun, 15 Jun 2025 13:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.994281
- Title: WereWolf-Plus: An Update of Werewolf Game setting Based on DSGBench
- Title(参考訳): WereWolf-Plus:DSGBenchをベースとしたWereWolfゲームセットのアップデート
- Authors: Xinyuan Xia, Yuanyi Song, Haomin Ma, Jinyu Cai,
- Abstract要約: WereWolf-Plusは,マルチエージェントの戦略的推論を評価するためのマルチモデル,マルチ次元,マルチメソッドのベンチマークプラットフォームである。
プラットフォームは、Seer、Witch、Hunter、Guardian、Sheriffといったロールのカスタマイズ可能な設定をサポートし、フレキシブルなモデル割り当てと推論強化戦略をサポートする。
本稿では, 特殊役割, 人狼, 保安官に対する総合的な定量的評価指標を導入し, エージェント推論能力, 協力能力, 社会的影響に対する評価次元を充実させる。
- 参考スコア(独自算出の注目度): 3.3998740964877463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of LLM-based agents, increasing attention has been given to their social interaction and strategic reasoning capabilities. However, existing Werewolf-based benchmarking platforms suffer from overly simplified game settings, incomplete evaluation metrics, and poor scalability. To address these limitations, we propose WereWolf-Plus, a multi-model, multi-dimensional, and multi-method benchmarking platform for evaluating multi-agent strategic reasoning in the Werewolf game. The platform offers strong extensibility, supporting customizable configurations for roles such as Seer, Witch, Hunter, Guard, and Sheriff, along with flexible model assignment and reasoning enhancement strategies for different roles. In addition, we introduce a comprehensive set of quantitative evaluation metrics for all special roles, werewolves, and the sheriff, and enrich the assessment dimensions for agent reasoning ability, cooperation capacity, and social influence. WereWolf-Plus provides a more flexible and reliable environment for advancing research on inference and strategic interaction within multi-agent communities. Our code is open sourced at https://github.com/MinstrelsyXia/WereWolfPlus.
- Abstract(参考訳): LLMをベースとしたエージェントの急速な開発に伴い、社会的相互作用と戦略的推論能力に注目が集まっている。
しかし、既存のWerewolfベースのベンチマークプラットフォームは、過度に単純化されたゲーム設定、不完全な評価メトリクス、スケーラビリティの低下に悩まされている。
これらの制約に対処するために、Werewolfゲームにおけるマルチエージェント戦略推論を評価するためのマルチモデル、マルチ次元、マルチメソッドベンチマークプラットフォームWereWolf-Plusを提案する。
プラットフォームは強力な拡張性を提供し、Seer、Witch、Hunter、Guardian、Sheriffといったロールのカスタマイズ可能な構成をサポートし、フレキシブルなモデルの割り当てと、異なるロールの推論強化戦略をサポートする。
さらに, 特殊役割, 人狼, 保安官の総合的な定量的評価指標を導入し, エージェント推論能力, 協力能力, 社会的影響に対する評価次元を充実させる。
WereWolf-Plusは、マルチエージェントコミュニティにおける推論と戦略的相互作用の研究を進めるための、より柔軟で信頼性の高い環境を提供する。
私たちのコードはhttps://github.com/MinstrelsyXia/WereWolfPlus.orgで公開されている。
関連論文リスト
- Werewolf: A Straightforward Game Framework with TTS for Improved User Engagement [42.620240788389154]
テキスト・トゥ・スペーチ(TTS)モデルをチューニングした,単純かつ簡単な LLM ベースの Werewolf ゲームシステムを提案する。
Werewolf のケースでは LLM 推論の強化により,余分なコンポーネントは不要になる,と我々は主張する。
論文 参考訳(メタデータ) (2025-05-30T18:58:57Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game [37.69298376616128]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - A Novel Weighted Ensemble Learning Based Agent for the Werewolf Game [0.0]
ワイアウルフは世界中で人気のあるパーティーゲームであり、近年その重要性の研究が進んでいる。
本研究では,複雑な重み付きアンサンブル学習手法を用いて,Werewolfをプレイする洗練されたエージェントを作成した。
論文 参考訳(メタデータ) (2022-05-19T19:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。