論文の概要: ZeroSumEval: Scaling LLM Evaluation with Inter-Model Competition
- arxiv url: http://arxiv.org/abs/2504.12562v1
- Date: Thu, 17 Apr 2025 01:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:00.400035
- Title: ZeroSumEval: Scaling LLM Evaluation with Inter-Model Competition
- Title(参考訳): ZeroSumEval: モデル間競合によるLLM評価のスケールアップ
- Authors: Haidar Khan, Hisham A. Alyahya, Yazeed Alnumay, M Saiful Bari, Bülent Yener,
- Abstract要約: ZeroSumEvalは、ゼロサムゲームを利用して大規模言語モデル(LLM)を評価する新しい競合ベースの評価プロトコルである。
ZeroSumEvalには、セキュリティ上の課題(PyJail)、古典的なゲーム(Chess, Liar's Dice, Poker)、知識テスト(MathQuiz)、説得的課題(Gandalf, Debate)など、さまざまなゲームが含まれている。
- 参考スコア(独自算出の注目度): 14.753916893216129
- License:
- Abstract: Evaluating the capabilities of Large Language Models (LLMs) has traditionally relied on static benchmark datasets, human assessments, or model-based evaluations - methods that often suffer from overfitting, high costs, and biases. ZeroSumEval is a novel competition-based evaluation protocol that leverages zero-sum games to assess LLMs with dynamic benchmarks that resist saturation. ZeroSumEval encompasses a diverse suite of games, including security challenges (PyJail), classic games (Chess, Liar's Dice, Poker), knowledge tests (MathQuiz), and persuasion challenges (Gandalf, Debate). These games are designed to evaluate a range of AI capabilities such as strategic reasoning, planning, knowledge application, and creativity. Building upon recent studies that highlight the effectiveness of game-based evaluations for LLMs, ZeroSumEval enhances these approaches by providing a standardized and extensible framework. To demonstrate this, we conduct extensive experiments with >7000 simulations across 7 games and 13 models. Our results show that while frontier models from the GPT and Claude families can play common games and answer questions, they struggle to play games that require creating novel and challenging questions. We also observe that models cannot reliably jailbreak each other and fail generally at tasks requiring creativity. We release our code at https://github.com/facebookresearch/ZeroSumEval.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力を評価するには、従来、静的なベンチマークデータセットや人的評価、モデルベースの評価に頼っていた。
ZeroSumEvalは、ゼロサムゲームを利用して、飽和に抵抗する動的ベンチマークを用いてLSMを評価する、新しい競合ベースの評価プロトコルである。
ZeroSumEvalには、セキュリティ上の課題(PyJail)、古典的なゲーム(Chess, Liar's Dice, Poker)、知識テスト(MathQuiz)、説得的課題(Gandalf, Debate)など、さまざまなゲームが含まれている。
これらのゲームは、戦略的推論、計画、知識応用、創造性など、さまざまなAI能力を評価するように設計されている。
LLMのゲームベース評価の有効性を強調する最近の研究に基づいて、ZeroSumEvalは標準化された拡張可能なフレームワークを提供することで、これらのアプローチを強化する。
そこで本研究では,7ゲームと13モデルを対象に,7000以上のシミュレーション実験を行った。
以上の結果から,GPTおよびClaudeファミリーのフロンティアモデルでは,共通ゲームや質問への回答が可能である一方で,斬新で挑戦的な質問を生み出すゲームに苦慮していることが示された。
また、モデルがお互いを確実にジェイルブレイクすることはできず、一般的に創造性を必要とするタスクで失敗することも観察しています。
コードについてはhttps://github.com/facebookresearch/ZeroSumEval.comで公開しています。
関連論文リスト
- Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - GameArena: Evaluating LLM Reasoning through Live Computer Games [25.415321902887598]
我々は,人間との対話型ゲームプレイを通じて,大規模言語モデル(LLM)推論能力を評価するベンチマークであるGameArenaを紹介する。
GameArenaは3つのゲームからなり、参加者を楽しませたりエンゲージメントしたりしながら、特定の推論能力(演能的推論や帰納的推論など)をテストする。
我々は2000以上のゲームセッションを収集し、5つの最先端LCMに対して様々な推論能力の詳細な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T11:22:59Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.06415588947462]
我々は,ゲームタイプの包括的カバレッジ,新しいシナリオ,柔軟な組織に関するベンチマークであるTMGBenchを提案する。
具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。
トピックガイダンスやヒューマンインスペクションを通じて、多種多様な高品質なシナリオを作成するために、合成データ生成も採用しています。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Evaluating Language Model Agency through Negotiations [39.87262815823634]
ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。
提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。
論文 参考訳(メタデータ) (2024-01-09T13:19:37Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。