論文の概要: BotzoneBench: Scalable LLM Evaluation via Graded AI Anchors
- arxiv url: http://arxiv.org/abs/2602.13214v1
- Date: Thu, 22 Jan 2026 13:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.550345
- Title: BotzoneBench: Scalable LLM Evaluation via Graded AI Anchors
- Title(参考訳): BotzoneBench: グレードAIアンカーによるスケーラブルなLLM評価
- Authors: Lingfeng Li, Yunlong Lu, Yuefei Zhang, Jingyu Yao, Yixin Zhu, KeYuan Cheng, Yongyi Wang, Qirui Zheng, Xionghui Yang, Wenxin Li,
- Abstract要約: 大規模言語モデル(LLM)は、戦略的意思決定を必要とする対話型環境にますます多くデプロイされている。
近年のゲームベース評価では, LLM-vs-LLMトーナメントが採用されている。
本稿では,LLMの評価をAI(Artificial Intelligence)の固定階層に固定することで,線形時間絶対スキル測定が可能となることを示す。
- 参考スコア(独自算出の注目度): 9.224594551677374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in interactive environments requiring strategic decision-making, yet systematic evaluation of these capabilities remains challenging. Existing benchmarks for LLMs primarily assess static reasoning through isolated tasks and fail to capture dynamic strategic abilities. Recent game-based evaluations employ LLM-vs-LLM tournaments that produce relative rankings dependent on transient model pools, incurring quadratic computational costs and lacking stable performance anchors for longitudinal tracking. The central challenge is establishing a scalable evaluation framework that measures LLM strategic reasoning against consistent, interpretable standards rather than volatile peer models. Here we show that anchoring LLM evaluation to fixed hierarchies of skill-calibrated game Artificial Intelligence (AI) enables linear-time absolute skill measurement with stable cross-temporal interpretability. Built on the Botzone platform's established competitive infrastructure, our BotzoneBench evaluates LLMs across eight diverse games spanning deterministic perfect-information board games to stochastic imperfect-information card games. Through systematic assessment of 177,047 state-action pairs from five flagship models, we reveal significant performance disparities and identify distinct strategic behaviors, with top-performing models achieving proficiency comparable to mid-to-high-tier specialized game AI in multiple domains. This anchored evaluation paradigm generalizes beyond games to any domain with well-defined skill hierarchies, establishing a scalable and reusable framework for assessing interactive AI capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、戦略的意思決定を必要とするインタラクティブな環境にますますデプロイされているが、これらの能力の体系的な評価は難しいままである。
LLMの既存のベンチマークは、主に孤立したタスクによる静的推論を評価し、動的戦略能力の獲得に失敗する。
近年のゲームベースの評価では、過渡的なモデルプールに依存した相対的なランキングを生成するLLM-vs-LLMトーナメントが採用されている。
中心的な課題は、不安定なピアモデルではなく、一貫性のある解釈可能な標準に対してLSMの戦略的推論を測定するスケーラブルな評価フレームワークを確立することである。
本稿では,スキルキャリブレーションゲームであるAI(Artificial Intelligence)の固定階層に対するLLM評価の固定化により,線形時間絶対的スキル測定が可能となることを示す。
私たちのBotzoneBenchは、Botzoneプラットフォームの確立した競争基盤に基づいて、決定論的完全情報ボードゲームから確率論的不完全情報カードゲームまで、8つの多種多様なゲームにわたるLSMを評価します。
5つのフラッグシップモデルから177,047のステートアクションペアを体系的に評価することにより、大きなパフォーマンス格差を明らかにし、異なる戦略行動を特定する。
このアンロックされた評価パラダイムは、ゲームを超えて、明確に定義されたスキル階層を持つ任意のドメインに一般化し、インタラクティブなAI機能を評価するためのスケーラブルで再利用可能なフレームワークを確立する。
関連論文リスト
- Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。
我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文 参考訳(メタデータ) (2025-11-12T06:06:29Z) - CATArena: Evaluation of LLM Agents through Iterative Tournament Competitions [49.02422075498554]
大言語モデル(LLM)エージェントは、基本的なテキスト生成から、外部ツールとのインタラクションを通じて、複雑なタスクを自律的に完了するまで進化してきた。
本研究では,人間レベルインテリジェンスに向けたエージェント進化のコアドライバとして,自己改善とピアラーニングの両方を含む学習能力の重要性を強調した。
本稿では,反復的かつ競合的なピアラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-30T15:22:53Z) - HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T09:59:02Z) - SKATE, a Scalable Tournament Eval: Weaker LLMs differentiate between stronger ones using verifiable challenges [2.184775414778289]
大規模言語モデル(LLM)が互いに検証可能なタスクを生成することによって競合する新しい評価フレームワークであるSKATEを紹介する。
私たちのコアは、タスクセットとソルバの両方のモデルとしての評価をゲームとして扱うことです。
TrueSkillベースのランキングシステムを用いて、6つのLCMを評価し、(1)より弱いモデルでは、より強力なモデルを確実に識別し、スコア付けすることができ、(2)LSMベースのシステムは、自己参照の振る舞いを可能とし、自己の能力に合わせた質問を生成し、(3)SKATEは自動的に、きめ細かな表面を呈する。
論文 参考訳(メタデータ) (2025-08-08T08:16:40Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - Meta-Evaluating Local LLMs: Rethinking Performance Metrics for Serious Games [3.725822359130832]
大規模言語モデル (LLMs) は、真剣なゲームにおける評価指標としてますます研究されている。
本研究では,エネルギーコミュニティにおける意思決定をシミュレートするゲームであるtextitEn-join において,5つの小規模 LLM の信頼性について検討した。
その結果、各モデルの長所と短所を強調し、感度、特異性、全体的なパフォーマンスのトレードオフを明らかにした。
論文 参考訳(メタデータ) (2025-04-13T10:46:13Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。