論文の概要: Evaluating Language Models' Evaluations of Games
- arxiv url: http://arxiv.org/abs/2510.10930v1
- Date: Mon, 13 Oct 2025 02:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.158155
- Title: Evaluating Language Models' Evaluations of Games
- Title(参考訳): 言語モデルによるゲームの評価
- Authors: Katherine M. Collins, Cedegao E. Zhang, Graham Todd, Lance Ying, Mauricio Barba da Costa, Ryan Liu, Prafull Sharma, Adrian Weller, Ionatan Kuperwajs, Lionel Wong, Joshua B. Tenenbaum, Thomas L. Griffiths,
- Abstract要約: 我々は,AIシステムのゲーム評価を評価する新しいパラダイムを提唱する。
私たちは100ドル以上の新しいボードゲームと450以上の人間の判断の大規模なデータセットを活用しています。
本結果から,推論モデルは,非推論言語モデルよりもゲーム評価において,一般に人々と一致していることが示唆された。
- 参考スコア(独自算出の注目度): 65.49017696754825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is not just about solving problems -- it is also about evaluating which problems are worth solving at all. Evaluations of artificial intelligence (AI) systems primarily focused on problem solving, historically by studying how models play games such as chess and Go. In this paper, we advocate for a new paradigm that assesses AI systems' evaluation of games. First, we introduce a formalism for evaluating such evaluations. We then leverage a large-scale dataset of over $100$ novel board games and over 450 human judgments to compare evaluations produced by modern language and reasoning models against those of people and symbolic computational agents. We consider two kinds of evaluative queries: assessing the payoff (or fairness) and the funness of games. These queries span two dimensions relevant to the design of evaluations of AI evaluations: how complex a query is to compute and how difficult a query is to quantify. Our results show that reasoning models are generally more aligned to people in their evaluations of games than non-reasoning language models. However, we observe a non-monotonic relationship: as models get closer to game-theoretic optimal, their fit to human data weakens. We also observe more "jaggedness" across models for assessing funness, in line with the greater difficulty of quantifying this query. Across queries and games, reasoning models show highly variable and unpredictable resource usage when assessing queries, pointing to the importance of imbuing more resource-rational meta-reasoning in language and reasoning models.
- Abstract(参考訳): 推論とは単に問題を解決することではなく、どの問題を解決する価値があるかを評価することでもある。
人工知能(AI)システムの評価は、主に問題解決に焦点を当て、歴史的に、モデルがどのようにチェスや囲碁のようなゲームをするかを研究する。
本稿では,AIシステムのゲーム評価を行う新たなパラダイムを提案する。
まず,このような評価を形式的に評価する手法を提案する。
次に、100ドル以上の新しいボードゲームと450以上の人間の判断の大規模なデータセットを活用して、現代の言語による評価と、人や象徴的な計算エージェントによる推論モデルを比較します。
評価クエリは,報酬(または公正性)とゲームの楽しさの2種類について検討する。
これらのクエリは、AI評価の評価設計に関連する2つの次元にまたがる。
本結果から,推論モデルは,非推論言語モデルよりもゲーム評価において,一般に人々と一致していることが示唆された。
しかし、モデルがゲーム理論の最適値に近づくにつれて、人間のデータに適合するモデルは弱まるという、モノトニックな関係が観察される。
また、このクエリを定量化することの難しさに応じて、面白さを評価するモデル間でより"ジャグネス"を観察する。
クエリやゲーム全体にわたって、推論モデルは、クエリを評価する際に非常に可変で予測不可能なリソース使用を示す。
関連論文リスト
- Bayesian Social Deduction with Graph-Informed Language Models [3.7540464038118633]
社会的推論は、大きな言語モデルにとって難しい課題である。
本稿では,信念推論を構造化確率モデルに外部化するハイブリッド推論フレームワークを提案する。
提案手法はエージェント・エージェント・プレイにおけるより大きなモデルとの競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-21T18:45:28Z) - MastermindEval: A Simple But Scalable Reasoning Benchmark [3.5519847710183674]
MastermindEvalは、ボードゲームMastermindにインスパイアされたシンプルでスケーラブルで解釈可能な推論ベンチマークである。
本ベンチマークでは,(1) エージェント評価,(2) モデルが自律的にプレイするエージェント評価,(2) モデルが1つの有効なコードしか推論できないプリプレイされたゲーム状態を与える演目推論評価という2つの評価パラダイムをサポートする。
論文 参考訳(メタデータ) (2025-03-07T19:24:59Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。