論文の概要: Measuring General Intelligence with Generated Games
- arxiv url: http://arxiv.org/abs/2505.07215v1
- Date: Mon, 12 May 2025 04:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.255638
- Title: Measuring General Intelligence with Generated Games
- Title(参考訳): 生成ゲームによる汎用インテリジェンスの測定
- Authors: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin,
- Abstract要約: gg-benchは、言語モデルにおける一般的な推論能力を評価するために設計されたゲーム環境の集合である。
gg-bench は,(1) 大規模言語モデル(LLM) を用いて新規ゲームの自然言語記述を生成し,(2) LLM を用いて,Gym 環境としてコード内の各ゲームを実装し,(3) 生成したゲーム上での自己プレイによる強化学習(RL) エージェントを訓練することにより,合成的に生成する。
- 参考スコア(独自算出の注目度): 35.118590734217264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present gg-bench, a collection of game environments designed to evaluate general reasoning capabilities in language models. Unlike most static benchmarks, gg-bench is a data generating process where new evaluation instances can be generated at will. In particular, gg-bench is synthetically generated by (1) using a large language model (LLM) to generate natural language descriptions of novel games, (2) using the LLM to implement each game in code as a Gym environment, and (3) training reinforcement learning (RL) agents via self-play on the generated games. We evaluate language models by their winrate against these RL agents by prompting models with the game description, current board state, and a list of valid moves, after which models output the moves they wish to take. gg-bench is challenging: state-of-the-art LLMs such as GPT-4o and Claude 3.7 Sonnet achieve winrates of 7-9% on gg-bench using in-context learning, while reasoning models such as o1, o3-mini and DeepSeek-R1 achieve average winrates of 31-36%. We release the generated games, data generation process, and evaluation code in order to support future modeling work and expansion of our benchmark.
- Abstract(参考訳): 言語モデルにおける一般的な推論能力を評価するために設計されたゲーム環境の集合であるgg-benchを提案する。
ほとんどの静的ベンチマークとは異なり、gg-benchは新しい評価インスタンスを自由に生成できるデータ生成プロセスである。
特に、(1)大型言語モデル(LLM)を用いて、新規ゲームの自然言語記述を生成すること、(2)LLMを用いて、Gym環境としてコード内の各ゲームを実装すること、(3)生成されたゲーム上での自己プレイによる強化学習(RL)エージェントの訓練により、gg-benchを合成的に生成する。
我々は,これらのRLエージェントに対して,ゲーム記述,現在のボード状態,有効な動作のリストをモデルに促すことで,これらのRLエージェントに対する勝利率で言語モデルを評価する。
GPT-4o や Claude 3.7 のような最先端の LLM は、文脈内学習を用いて gg-bench で 7-9% の勝率を達成する一方、o1, o3-mini や DeepSeek-R1 のような推論モデルは平均勝率 31-36% を達成する。
我々は、将来のモデリング作業とベンチマークの拡張をサポートするために、生成されたゲーム、データ生成プロセス、評価コードをリリースする。
関連論文リスト
- Grammar-based Game Description Generation using Large Language Models [12.329521804287259]
Game Description Language (GDL) は、様々なゲームを機械可読形式で表現するための標準化された方法を提供する。
本稿では,Large Language Models(LLM)を利用して,自然言語から文法的に正確なゲーム記述を生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-24T16:36:02Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Pre-trained Language Models as Prior Knowledge for Playing Text-based
Games [2.423547527175808]
本稿では,LMフレームワークを用いたシンプルなRLを提案することにより,エージェントの意味的理解を改善する。
我々は,この人気ゲームであるZolk1において,我々のモデルがどのように既存のエージェントよりも優れているかを実証するために,我々のフレームワークの詳細な研究を行う。
提案手法は,テキストゲームの他のセットにおける最先端モデルに対して,コンパレントに機能する。
論文 参考訳(メタデータ) (2021-07-18T10:28:48Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。