論文の概要: TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs
- arxiv url: http://arxiv.org/abs/2410.10479v2
- Date: Tue, 27 May 2025 14:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.042797
- Title: TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs
- Title(参考訳): TMGBench: LLMの戦略推論能力を評価するためのシステムゲームベンチマーク
- Authors: Haochuan Wang, Xiachong Feng, Lei Li, Yu Guo, Zhanyue Qin, Dianbo Sui, Lingpeng Kong,
- Abstract要約: ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
- 参考スコア(独自算出の注目度): 45.12542636218608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models has accelerated their application in reasoning, with strategic reasoning drawing increasing attention. To evaluate the strategic reasoning capabilities of LLMs, game theory, with its concise structure, has become the preferred approach for many researchers. However, current research typically focuses on a limited selection of games, resulting in low coverage of game types. Additionally, classic game scenarios carry risks of data leakage, and the benchmarks used often lack extensibility, rendering them inadequate for evaluating state-of-the-art models. To address these challenges, we propose TMGBench, characterized by comprehensive game type coverage, diverse scenarios and flexible game organization. Specifically, we incorporate all 144 game types summarized by the Robinson-Goforth topology of 2x2 games, constructed as classic games in our benchmark; we also synthetize diverse, higher-quality game scenarios for each classic game, which we refer to as story-based games. Lastly, to provide a sustainable evaluation framework adaptable to increasingly powerful LLMs, we treat the aforementioned games as atomic units and organize them into more complex forms through sequential, parallel, and nested structures. We conducted a comprehensive evaluation of mainstream LLMs, covering tests on rational reasoning, reasoning robustness, Theory-of-Mind capabilities, and reasoning in complex game forms. The results revealed LLMs still have flaws in the accuracy and consistency of strategic reasoning processes, and their levels of mastery over Theory-of-Mind also vary. Additionally, SOTA models like o3-mini, Qwen3 and deepseek-reasoner, were also evaluated across the sequential, parallel, and nested game structures while the results highlighted the challenges posed by TMGBench.
- Abstract(参考訳): 大規模言語モデルの急速な進歩は推論における応用を加速させ、戦略的推論が注目を集めている。
LLMの戦略的推論能力を評価するため、ゲーム理論はその簡潔な構造を持ち、多くの研究者にとって好ましいアプローチとなっている。
しかし、現在の研究はゲームの種類を限定的に選択することに焦点を当てており、ゲームの種類は少ない。
さらに、古典的なゲームシナリオはデータ漏洩のリスクを持ち、使用されるベンチマークは拡張性に欠けることが多く、最先端のモデルを評価するには不十分である。
これらの課題に対処するために,ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプを取り入れ、また、ストーリーベースのゲームと呼ぶ各古典ゲームに対して、多様で高品質なゲームシナリオを合成する。
最後に、より強力なLCMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱い、逐次的、並列的、ネスト的構造を通じてより複雑な形式に整理する。
そこで,本研究では,論理的推論,ロバスト性,理論・オブ・ミンド能力,複雑なゲーム形式の推論を網羅的に評価した。
その結果、LSMは戦略的推論プロセスの正確性と一貫性にまだ欠陥があることが判明した。
さらに、O3-mini、Qwen3、Deepseek-reasonerといったSOTAモデルも、TMGBenchによる課題を強調しながら、シーケンシャル、並列、ネストされたゲーム構造にわたって評価された。
関連論文リスト
- ZeroSumEval: Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは、ゼロサムゲームを利用して大規模言語モデル(LLM)を評価する新しい競合ベースの評価プロトコルである。
ZeroSumEvalには、セキュリティ上の課題(PyJail)、古典的なゲーム(Chess, Liar's Dice, Poker)、知識テスト(MathQuiz)、説得的課題(Gandalf, Debate)など、さまざまなゲームが含まれている。
論文 参考訳(メタデータ) (2025-04-17T01:23:50Z) - ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは,大規模言語モデル(LLM)のための動的かつ競争的かつ進化的な評価フレームワークである。
ZeroSumEvalには、セキュリティ上の課題(Capture the Flag)、古典的なボードゲーム(chs)、知識テスト(MathQuiz)など、さまざまな種類のゲームが含まれている。
論文 参考訳(メタデータ) (2025-03-10T16:54:27Z) - Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。