論文の概要: TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs
- arxiv url: http://arxiv.org/abs/2410.10479v1
- Date: Mon, 14 Oct 2024 13:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:24:58.624480
- Title: TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs
- Title(参考訳): TMGBench: LLMの戦略推論能力を評価するためのシステムゲームベンチマーク
- Authors: Haochuan Wang, Xiachong Feng, Lei Li, Zhanyue Qin, Dianbo Sui, Lingpeng Kong,
- Abstract要約: 我々は,ゲームタイプの包括的カバレッジ,新しいシナリオ,柔軟な組織に関するベンチマークであるTMGBenchを提案する。
具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。
トピックガイダンスやヒューマンインスペクションを通じて、多種多様な高品質なシナリオを作成するために、合成データ生成も採用しています。
- 参考スコア(独自算出の注目度): 45.06415588947462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has accelerated their application in reasoning, with strategic reasoning drawing increasing attention. To evaluate LLMs' strategic reasoning capabilities, game theory, with its concise structure, has become a preferred approach. However, current research focuses on a limited selection of games, resulting in low coverage. Classic game scenarios risk data leakage, and existing benchmarks often lack extensibility, making them inadequate for evaluating state-of-the-art models. To address these challenges, we propose TMGBench, a benchmark with comprehensive game type coverage, novel scenarios, and flexible organization. Specifically, we incorporate all 144 game types summarized by the Robinson-Goforth topology of 2x2 games, constructed as classic games. We also employ synthetic data generation to create diverse, higher-quality scenarios through topic guidance and human inspection, referred to as story-based games. Lastly, we provide a sustainable framework for increasingly powerful LLMs by treating these games as atomic units and organizing them into more complex forms via sequential, parallel, and nested structures. Our comprehensive evaluation of mainstream LLMs covers tests on rational reasoning, robustness, Theory-of-Mind (ToM), and reasoning in complex forms. Results reveal flaws in accuracy, consistency, and varying mastery of ToM. Additionally, o1-mini, OpenAI's latest reasoning model, achieved accuracy rates of 66.6%, 60.0%, and 70.0% on sequential, parallel, and nested games, highlighting TMGBench's challenges.
- Abstract(参考訳): 大規模言語モデル (LLMs) の急速な進歩は推論においてその適用を加速させ、戦略的推論が注目を集めている。
LLMの戦略的推論能力を評価するために、ゲーム理論は、その簡潔な構造で好まれるアプローチとなっている。
しかし、現在の研究は限定的なゲームの選択に焦点を当てており、その結果、カバー範囲が低くなる。
古典的なゲームシナリオはデータの漏洩を危険にさらすが、既存のベンチマークは拡張性に欠けることが多く、最先端のモデルを評価するには不十分である。
これらの課題に対処するため,ゲームタイプの包括的カバレッジ,新たなシナリオ,フレキシブルな組織のベンチマークであるTMGBenchを提案する。
具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。
我々はまた、ストーリーベースゲームと呼ばれるトピックガイダンスやヒューマンインスペクションを通じて、多彩で高品質なシナリオを作成するために、合成データ生成も採用している。
最後に、これらのゲームを原子単位として扱い、それらをシーケンシャル、並列、ネストされた構造を介してより複雑な形式に整理することで、より強力なLLMのための持続可能なフレームワークを提供する。
本稿では,論理的推論,ロバスト性,理論・オブ・ミンド(ToM),複雑な形式による推論を包括的に評価する。
その結果、ToMの精度、一貫性、および様々な熟達性の欠陥が明らかになった。
さらに、OpenAIの最新推論モデルであるo1-miniは、シーケンシャル、並列、ネストされたゲームで66.6%、60.0%、70.0%の精度を達成し、TMGBenchの課題を強調した。
関連論文リスト
- LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。