論文の概要: LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts
- arxiv url: http://arxiv.org/abs/2509.16610v1
- Date: Sat, 20 Sep 2025 10:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.885257
- Title: LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts
- Title(参考訳): LLMsPark:戦略ゲームコンテキストにおける大規模言語モデル評価ベンチマーク
- Authors: Junhao Chen, Jingbo Sun, Xiang Li, Haidong Xin, Yuhao Xue, Yibin Xu, Hao Zhao,
- Abstract要約: 本稿では,大規模言語モデルの意思決定戦略と社会行動を測定するゲーム理論に基づく評価プラットフォームについて述べる。
本システムでは,トップボードランキングとスコアリング機構を用いて,15のLLMを横断的に評価する。
この研究は、LLMの戦略的知性を評価するための新しい視点を導入し、既存のベンチマークを強化し、インタラクティブでゲーム理論的なシナリオにおけるそれらの評価を広げる。
- 参考スコア(独自算出の注目度): 19.97430860742638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance across diverse tasks, the need for comprehensive evaluation beyond single metrics becomes increasingly important. To fully assess LLM intelligence, it is crucial to examine their interactive dynamics and strategic behaviors. We present LLMsPark, a game theory-based evaluation platform that measures LLMs' decision-making strategies and social behaviors in classic game-theoretic settings, providing a multi-agent environment to explore strategic depth. Our system cross-evaluates 15 leading LLMs (both commercial and open-source) using leaderboard rankings and scoring mechanisms. Higher scores reflect stronger reasoning and strategic capabilities, revealing distinct behavioral patterns and performance differences across models. This work introduces a novel perspective for evaluating LLMs' strategic intelligence, enriching existing benchmarks and broadening their assessment in interactive, game-theoretic scenarios. The benchmark and rankings are publicly available at https://llmsparks.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)が多様なタスクにまたがって進化するにつれ、単一のメトリクスを超えて包括的な評価の必要性が高まっている。
LLMインテリジェンスを十分に評価するためには、そのインタラクティブなダイナミクスと戦略的行動を検討することが不可欠である。
LLMsParkは,ゲーム理論に基づく評価プラットフォームであり,従来のゲーム理論設定におけるLSMの意思決定戦略と社会的行動を測定し,戦略深度を探索するマルチエージェント環境を提供する。
我々のシステムは、リーダーボードのランキングとスコアリング機構を用いて、15のLLM(商用およびオープンソースの両方)を横断的に評価する。
より高いスコアは、より強力な推論と戦略的能力を反映し、異なる振る舞いパターンとモデル間のパフォーマンスの違いを明らかにします。
この研究は、LLMの戦略的知性を評価するための新しい視点を導入し、既存のベンチマークを強化し、インタラクティブでゲーム理論的なシナリオにおけるそれらの評価を広げる。
ベンチマークとランキングはhttps://llmsparks.github.io/で公開されている。
関連論文リスト
- CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs [10.29314561183905]
ゲームプレイ能力は、大規模言語モデルの戦略的推論能力を評価する指標となる。
行動経済学の認知階層モデルに着想を得た新しい評価フレームワークであるCHBenchを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:10:26Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis [34.639887462203]
我々は、オープンでスケーラブルでリアルタイムに更新されたプラットフォームを導入し、ゲームに基づいてLLMベースのMASにアクセスし分析する(WiS)。
本プラットフォームには,(1)H Face上で利用可能なモデルをサポートする統一型モデル評価インタフェース,(2)モデル評価のためのリアルタイム更新型リーダーボード,(3)ゲーム勝利率,攻撃,防衛戦略,LLMの推論に関する総合的評価の3つが特徴である。
論文 参考訳(メタデータ) (2024-12-04T14:45:09Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。