論文の概要: Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies
- arxiv url: http://arxiv.org/abs/2510.11389v1
- Date: Mon, 13 Oct 2025 13:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.376375
- Title: Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies
- Title(参考訳): 生存を超えて:人間に適応した戦略による社会誘導ゲームにおけるLLMの評価
- Authors: Zirui Song, Yuan Huang, Junchang Liu, Haozhe Luo, Chenxi Wang, Lang Gao, Zixiang Xu, Mingfei Han, Xiaojun Chang, Xiuying Chen,
- Abstract要約: Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
- 参考スコア(独自算出の注目度): 54.08697738311866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social deduction games like Werewolf combine language, reasoning, and strategy, providing a testbed for studying natural language and social intelligence. However, most studies reduce the game to LLM-based self-play, yielding templated utterances and anecdotal cases that overlook the richness of social gameplay. Evaluation further relies on coarse metrics such as survival time or subjective scoring due to the lack of quality reference data. To address these gaps, we curate a high-quality, human-verified multimodal Werewolf dataset containing over 100 hours of video, 32.4M utterance tokens, and 15 rule variants. Based on this dataset, we propose a novel strategy-alignment evaluation that leverages the winning faction's strategies as ground truth in two stages: 1) Speech evaluation, formulated as multiple-choice-style tasks that assess whether the model can adopt appropriate stances across five dimensions of social ability; and 2) Decision evaluation, which assesses the model's voting choices and opponent-role inferences. This framework enables a fine-grained evaluation of models' linguistic and reasoning capabilities, while capturing their ability to generate strategically coherent gameplay. Our experiments show that state-of-the-art LLMs show diverse performance, with roughly half remain below 0.50, revealing clear gaps in deception and counterfactual reasoning. We hope our dataset further inspires research on language, reasoning, and strategy in multi-agent interaction.
- Abstract(参考訳): Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせて、自然言語と社会知性を研究するためのテストベッドを提供する。
しかし、ほとんどの研究は、このゲームをLLMベースのセルフプレイに還元し、テンプレート化された発話と、ソーシャルゲームプレイの豊かさを見落としている逸話的ケースを生み出している。
評価は、品質基準データの欠如による生存時間や主観的スコアなどの粗い指標にも依存する。
これらのギャップに対処するため、100時間以上のビデオ、32.4Mの発話トークン、15のルール変種を含む、高品質で人間認証されたWerewolfデータセットをキュレートする。
本データセットに基づいて,勝利派戦略を2段階の真理として活用する新たな戦略アライメント評価を提案する。
1)モデルが社会的能力の5次元にわたって適切な姿勢をとることができるかどうかを評価するマルチ選択型タスクとしての音声評価
2)モデルの投票選択と対極推論を評価する決定評価。
このフレームワークは、戦略的に一貫性のあるゲームプレイを生成する能力を獲得しながら、モデルの言語的および推論能力のきめ細かい評価を可能にする。
実験の結果, 現状のLSMは0.50以下であり, 偽造と偽造的推論の明確なギャップが明らかであることがわかった。
私たちのデータセットは、多エージェントインタラクションにおける言語、推論、戦略に関する研究をさらに刺激することを期待しています。
関連論文リスト
- InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles [39.025684190110276]
社会的推論ゲームは、個別の推論スタイルを評価するための自然なテストベッドを提供する。
我々は,LLMがパーソナライズされた推論スタイルをキャプチャして適用できるかどうかを評価するための認知基盤評価フレームワークであるInMindを紹介する。
ケーススタディとして、InMindをゲームAvalonに適用し、11の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-08-22T04:04:00Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。