論文の概要: ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition
- arxiv url: http://arxiv.org/abs/2503.10673v1
- Date: Mon, 10 Mar 2025 16:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:39.239870
- Title: ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition
- Title(参考訳): ZeroSumEval: LLM評価をスケールするための拡張可能なフレームワーク
- Authors: Hisham A. Alyahya, Haidar Khan, Yazeed Alnumay, M Saiful Bari, Bülent Yener,
- Abstract要約: ZeroSumEvalは,大規模言語モデル(LLM)のための動的かつ競争的かつ進化的な評価フレームワークである。
ZeroSumEvalには、セキュリティ上の課題(Capture the Flag)、古典的なボードゲーム(chs)、知識テスト(MathQuiz)など、さまざまな種類のゲームが含まれている。
- 参考スコア(独自算出の注目度): 14.753916893216129
- License:
- Abstract: We introduce ZeroSumEval, a dynamic, competition-based, and evolving evaluation framework for Large Language Models (LLMs) that leverages competitive games. ZeroSumEval encompasses a diverse suite of games, including security challenges (Capture the Flag), classic board games (chess), and knowledge tests (MathQuiz). These games are designed to evaluate a range of capabilities such as strategic reasoning, planning, knowledge application, safety, and adaptability. Building upon recent studies that highlight the effectiveness of game-based evaluations for LLMs, ZeroSumEval enhances these approaches by providing a standardized and extensible framework for easily implementing games and leverages DSPy to provide a better abstraction for LLM player strategies.
- Abstract(参考訳): ZeroSumEvalは,競合ゲームを活用する大規模言語モデル(LLM)の動的かつ競争的,かつ進化的な評価フレームワークである。
ZeroSumEvalには、セキュリティ上の課題(Capture the Flag)、古典的なボードゲーム(chs)、知識テスト(MathQuiz)など、さまざまなゲームスイートが含まれている。
これらのゲームは、戦略的推論、計画、知識応用、安全性、適応性などの様々な能力を評価するように設計されている。
ゲームによるLLMの評価の有効性を強調する最近の研究に基づいて、ZeroSumEvalは、ゲームを簡単に実装するための標準化された拡張可能なフレームワークを提供することにより、これらのアプローチを強化し、DSPyを活用してLLMプレイヤー戦略のより優れた抽象化を提供する。
関連論文リスト
- Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.06415588947462]
我々は,ゲームタイプの包括的カバレッジ,新しいシナリオ,柔軟な組織に関するベンチマークであるTMGBenchを提案する。
具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。
トピックガイダンスやヒューマンインスペクションを通じて、多種多様な高品質なシナリオを作成するために、合成データ生成も採用しています。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。