Fugu-MT 論文翻訳(概要): Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

論文の概要: Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

arxiv url: http://arxiv.org/abs/2407.07796v1
Date: Wed, 10 Jul 2024 16:14:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 15:53:02.137200
Title: Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard
Title（参考訳）: グリッドベースのゲームコンペティションによる大規模言語モデルの評価 - 拡張可能なLLMベンチマークとリーダボード
Authors: Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper,
Abstract要約: 我々は,Tic-Tac-Toe,Connect-Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たなベンチマークを導入する。 GitHubで公開されているオープンソースのゲームシミュレーションコードは、LSMが競合し、詳細なデータファイルを生成することを可能にする。本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet,Google の Gemini 1.5 Pro と Gemini Flash,OpenAI の GPT-4 Turbo と GPT-4o,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel and extensible benchmark for large language models (LLMs) through grid-based games such as Tic-Tac-Toe, Connect-Four, and Gomoku. The open-source game simulation code, available on GitHub, allows LLMs to compete and generates detailed data files in JSON, CSV, TXT, and PNG formats for leaderboard rankings and further analysis. We present the results of games among leading LLMs, including Claude 3.5 Sonnet and Claude 3 Sonnet by Anthropic, Gemini 1.5 Pro and Gemini 1.5 Flash by Google, GPT-4 Turbo and GPT-4o by OpenAI, and Llama3-70B by Meta. We also encourage submissions of results from other LLMs. In total, we simulated 2,310 matches (5 sessions for each pair among 7 LLMs and a random player) across three types of games, using three distinct prompt types: list, illustration, and image. The results revealed significant variations in LLM performance across different games and prompt types, with analysis covering win and disqualification rates, missed opportunity analysis, and invalid move analysis. The details of the leaderboard and result matrix data are available as open-access data on GitHub. This study enhances our understanding of LLMs' capabilities in playing games they were not specifically trained for, helping to assess their rule comprehension and strategic thinking. On the path to Artificial General Intelligence (AGI), this study lays the groundwork for future exploration into their utility in complex decision-making scenarios, illuminating their strategic thinking abilities and offering directions for further inquiry into the limits of LLMs within game-based frameworks.
Abstract（参考訳）: 我々は,Tic-Tac-Toe,Connect-Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たな拡張可能なベンチマークを導入する。 GitHubで公開されているオープンソースのゲームシミュレーションコードにより、LLMは、リーダボードランキングとさらなる分析のために、JSON、CSV、TXT、PNGフォーマットで詳細なデータファイルと競合し、生成することができる。本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet ,Google の Gemini 1.5 Pro と Gemini 1.5 Flash ,OpenAI の GPT-4 Turbo と GPT-4o ,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。また、他のLSMからの結果の提出を奨励します。本研究は,3種類のゲームに対して,リスト,イラスト,イメージの3つの異なるプロンプト型を用いて,2,310試合(それぞれ7 LLMとランダムプレイヤーの5セッション)をシミュレーションした。その結果,異なるゲームやプロンプトタイプ間でのLLM性能の有意な変動が明らかとなり,勝敗率や失格率,機会分析の欠如,無効な移動解析が報告された。リーダボードと結果マトリックスの詳細は、GitHubでオープンアクセスデータとして公開されている。本研究は,特定の訓練を受けていないゲームにおけるLLMの能力の理解を深め,ルール理解と戦略的思考の評価に役立てるものである。 AGI(Artificial General Intelligence)への道のりとして、この研究は、複雑な意思決定シナリオにおける将来的な実用性を探究し、戦略的な思考能力を照らし、ゲームベースのフレームワークにおけるLSMの限界についてさらなる調査を行うための指針を提供するための基礎となる。

関連論文リスト

Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games [16.187737674778234]
textbfbenchnameは,多種多様な現実世界のビデオゲームを対象とした大規模言語モデル(LLM)エージェントの訓練と評価を目的としたベンチマークである。 LLMの一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入する。 Orakは総合的な評価フレームワークを提供しており、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を含んでいる。
論文参考訳（メタデータ） (2025-06-04T06:40:33Z)
lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文参考訳（メタデータ） (2025-05-21T06:02:55Z)
Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.128280701799074]
意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
論文参考訳（メタデータ） (2025-03-18T07:30:29Z)
Can Large Language Models Capture Video Game Engagement? [1.3873323883842132]
我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
論文参考訳（メタデータ） (2025-02-05T17:14:47Z)
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps [5.874552372073687]
大規模言語モデル(LLM)は、最近、自然言語の生成と理解において大きな成功を収めた。多様な2次元グリッドベースのゲームマップからなるベンチマークであるGameTraversalBenchmark (GTB)を提案する。 GPT-4-TurboはGTB_Score(GTBS)で44.97%の最高スコアを記録した。
論文参考訳（メタデータ） (2024-10-10T09:54:28Z)
Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文参考訳（メタデータ） (2024-04-16T08:28:16Z)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。 $gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文参考訳（メタデータ） (2024-03-18T14:04:47Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。 LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文参考訳（メタデータ） (2023-10-09T07:59:34Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。