論文の概要: Board Game Arena: A Framework and Benchmark for Assessing Large Language Models via Strategic Play
- arxiv url: http://arxiv.org/abs/2508.03368v1
- Date: Tue, 05 Aug 2025 12:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.95118
- Title: Board Game Arena: A Framework and Benchmark for Assessing Large Language Models via Strategic Play
- Title(参考訳): ボードゲームアリーナ:戦略プレイによる大規模言語モデル評価のためのフレームワークとベンチマーク
- Authors: Lucia Cipolina-Kun, Marianna Nezhurina, Jenia Jitsev,
- Abstract要約: Board Game Arenaライブラリは、Google OpenSpielライブラリに実装された戦略的ボードゲームを通じて、大きな言語モデル(LLM)の決定能力を評価するためのフレームワークを提供する。
LiteLLMによるモデルへのAPIアクセス、vLLMによるローカルモデルデプロイメント、Rayによる分散実行を提供する。
本稿では,レポジトリの構造,特徴,モチベーションを要約し,LLMの推論とゲーム理論的振る舞いの実証的評価にどのように貢献するかを明らかにする。
- 参考スコア(独自算出の注目度): 12.20709692079716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Board Game Arena library provides a framework for evaluating the decision making abilities of large language models (LLMs) through strategic board games implemented in Google OpenSpiel library. The framework enables systematic comparisons between LLM based agents and other agents (random, human, reinforcement learning agents, etc.) in various game scenarios by wrapping multiple board and matrix games and supporting different agent types. It integrates API access to models via LiteLLM, local model deployment via vLLM, and offers distributed execution through Ray. Additionally it provides extensive analysis tools for the LLM reasoning traces. This paper summarizes the structure, key characteristics, and motivation of the repository, highlighting how it contributes to the empirical evaluation of the reasoning of LLM and game-theoretic behavior
- Abstract(参考訳): Board Game Arenaライブラリは、Google OpenSpielライブラリに実装された戦略的ボードゲームを通じて、大きな言語モデル(LLM)の決定能力を評価するためのフレームワークを提供する。
このフレームワークは、複数のボードおよびマトリックスゲームをラップし、異なるエージェントタイプをサポートすることにより、様々なゲームシナリオにおけるLLMベースのエージェントと他のエージェント(ランダム、人間、強化学習エージェントなど)の体系的な比較を可能にする。
LiteLLMによるモデルへのAPIアクセス、vLLMによるローカルモデルデプロイメント、Rayによる分散実行を提供する。
さらに、LLM推論トレースの広範な解析ツールも提供する。
本稿では,レポジトリの構造,キー特性,モチベーションを要約し,LLMの推論とゲーム理論的行動の実証的評価にどのように貢献するかを明らかにする。
関連論文リスト
- Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games [16.187737674778234]
textbfbenchnameは,多種多様な現実世界のビデオゲームを対象とした大規模言語モデル(LLM)エージェントの訓練と評価を目的としたベンチマークである。
LLMの一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入する。
Orakは総合的な評価フレームワークを提供しており、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を含んでいる。
論文 参考訳(メタデータ) (2025-06-04T06:40:33Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis [34.639887462203]
我々は、オープンでスケーラブルでリアルタイムに更新されたプラットフォームを導入し、ゲームに基づいてLLMベースのMASにアクセスし分析する(WiS)。
本プラットフォームには,(1)H Face上で利用可能なモデルをサポートする統一型モデル評価インタフェース,(2)モデル評価のためのリアルタイム更新型リーダーボード,(3)ゲーム勝利率,攻撃,防衛戦略,LLMの推論に関する総合的評価の3つが特徴である。
論文 参考訳(メタデータ) (2024-12-04T14:45:09Z) - Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
探索に基づくプランニングにより,大規模言語モデルによるゲームプレイ能力の大幅な向上が期待できることを示す。
外部探索では,モンテカルロ木探索のロールアウトと評価を外部ゲームエンジンに呼び出しずにガイドし,内部探索では,探索の線形化木と最終的な選択をインコンテキストで生成するように訓練する。
提案手法は,探索とドメイン知識を組み合わせることで,ボードゲームに特化せず,より汎用的な応用を示唆するものである。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - LLMBox: A Comprehensive Library for Large Language Models [109.15654830320553]
本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。
このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
論文 参考訳(メタデータ) (2024-07-08T02:39:33Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。