論文の概要: Code World Models for General Game Playing
- arxiv url: http://arxiv.org/abs/2510.04542v1
- Date: Mon, 06 Oct 2025 07:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.721879
- Title: Code World Models for General Game Playing
- Title(参考訳): 汎用ゲームのためのコードワールドモデル
- Authors: Wolfgang Lehrach, Daniel Hennes, Miguel Lazaro-Gredilla, Xinghua Lou, Carter Wendelken, Zun Li, Antoine Dedieu, Jordi Grau-Moya, Marc Lanctot, Atil Iscen, John Schultz, Marcus Chiam, Ian Gemp, Piotr Zielinski, Satinder Singh, Kevin P. Murphy,
- Abstract要約: 我々はLarge Language Modelsを用いて、自然言語規則とゲーム軌跡をPythonコードとして表現された形式的で実行可能な世界モデルに変換する。
この生成モデルは、高性能計画アルゴリズムの検証可能なシミュレーションエンジンとして機能する。
提案手法は,10ゲーム中9ゲームにおいて,Gemini 2.5 Proより優れているか,あるいは一致していることがわかった。
- 参考スコア(独自算出の注目度): 22.382021070682256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) reasoning abilities are increasingly being applied to classical board and card games, but the dominant approach -- involving prompting for direct move generation -- has significant drawbacks. It relies on the model's implicit fragile pattern-matching capabilities, leading to frequent illegal moves and strategically shallow play. Here we introduce an alternative approach: We use the LLM to translate natural language rules and game trajectories into a formal, executable world model represented as Python code. This generated model -- comprising functions for state transition, legal move enumeration, and termination checks -- serves as a verifiable simulation engine for high-performance planning algorithms like Monte Carlo tree search (MCTS). In addition, we prompt the LLM to generate heuristic value functions (to make MCTS more efficient), and inference functions (to estimate hidden states in imperfect information games). Our method offers three distinct advantages compared to directly using the LLM as a policy: (1) Verifiability: The generated CWM serves as a formal specification of the game's rules, allowing planners to algorithmically enumerate valid actions and avoid illegal moves, contingent on the correctness of the synthesized model; (2) Strategic Depth: We combine LLM semantic understanding with the deep search power of classical planners; and (3) Generalization: We direct the LLM to focus on the meta-task of data-to-code translation, enabling it to adapt to new games more easily. We evaluate our agent on 10 different games, of which 4 are novel and created for this paper. 5 of the games are fully observed (perfect information), and 5 are partially observed (imperfect information). We find that our method outperforms or matches Gemini 2.5 Pro in 9 out of the 10 considered games.
- Abstract(参考訳): 大規模言語モデル(LLM)推論能力は、古典的なボードゲームやカードゲームにますます応用されているが、直接的な移動生成の促進を含む支配的なアプローチには、大きな欠点がある。
これはモデルの暗黙の脆弱なパターンマッチング能力に依存しており、しばしば違法な動きと戦略的に浅いプレーをもたらす。
自然言語規則とゲームトラジェクトリを,Pythonコードとして表現された形式的で実行可能な世界モデルに変換するために,LLMを使用します。
このモデル - 状態遷移、法的な移動列挙、終了チェック機能 - は、モンテカルロ木探索(MCTS)のような高性能な計画アルゴリズムの検証可能なシミュレーションエンジンとして機能する。
さらに,LLMにヒューリスティックな値関数(MCTSをより効率的にする)と推論関数(不完全な情報ゲームにおける隠れ状態を推定する)を生成するよう促す。
検証可能性: 生成したCWMはゲームルールの形式的仕様として機能し,有効動作をアルゴリズムで列挙し,不正動作を回避し,合成されたモデルの正しさに留意すること; 戦略的深さ: LLM意味論的理解と古典的プランナーの深い探索力を組み合わせること; 一般化: LLMにデータ-コード翻訳のメタタスクに重点を置き,新しいゲームに容易に適応できるように指示すること。
エージェントを10種類の異なるゲームで評価し,その内4つは新規で,本論文のために作成された。
5は完全観察(完全情報)、5は部分的に観察(完全情報)される。
提案手法は,10ゲーム中9ゲームにおいて,Gemini 2.5 Proより優れているか,あるいは一致していることがわかった。
関連論文リスト
- Boardwalk: Towards a Framework for Creating Board Games with LLMs [0.0]
我々は,自然言語で記述されたルールから,大規模言語モデルがボードゲームのデジタル版を実装できるかどうかを検討することを目的とする。
我々は,ボードウォーク内およびボードウォーク内において,人気ゲーム12選をコーディングするために,最先端の3つのLSMを課題とする。
我々のアプローチは、最高のパフォーマンスモデルであるClaude 3.7 Sonnetで、エラーなく55.6%のゲームが得られることを証明している。
論文 参考訳(メタデータ) (2025-08-22T15:02:07Z) - Baba is LLM: Reasoning in a Game with Dynamic Rules [0.0]
大規模言語モデル(LLM)は、言語タスクではうまく機能することが知られているが、推論タスクでは苦労している。
本稿では,LLMが2DパズルゲームBaba Is Youをプレイする能力について考察する。
論文 参考訳(メタデータ) (2025-06-23T20:16:28Z) - Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。
ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。
ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - Measuring General Intelligence with Generated Games [35.118590734217264]
gg-benchは、言語モデルにおける一般的な推論能力を評価するために設計されたゲーム環境の集合である。
gg-bench は,(1) 大規模言語モデル(LLM) を用いて新規ゲームの自然言語記述を生成し,(2) LLM を用いて,Gym 環境としてコード内の各ゲームを実装し,(3) 生成したゲーム上での自己プレイによる強化学習(RL) エージェントを訓練することにより,合成的に生成する。
論文 参考訳(メタデータ) (2025-05-12T04:01:03Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。