論文の概要: Distilling Game Code World Model Generation into Lightweight Large Language Models
- arxiv url: http://arxiv.org/abs/2605.24375v1
- Date: Sat, 23 May 2026 03:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.961254
- Title: Distilling Game Code World Model Generation into Lightweight Large Language Models
- Title(参考訳): ゲームコードワールドモデル生成の軽量大言語モデルへの応用
- Authors: Tyrone Serapio, Arjun Prakash, Haoyang Xu, Kevin Wang, Amy Greenwald,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語から実行可能なコードを生成する優れた能力を示している。
生成した環境はルール,法的行動,状態遷移,観察,報酬を実装しなければならない。
本研究は,ゲームコードワールドモデルがポストトレーニングにより,より小さなモデルに蒸留できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 8.471264611944559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown great ability in generating executable code from natural language, opening the possibility of automatically constructing environments for AI agents. Recent work on Code World Models (CWMs) demonstrates that LLMs can translate game rules into Python implementations compatible with solvers like Monte Carlo Tree Search. We study this problem in game settings, where generated environments must implement rules, legal actions, state transitions, observations, and rewards. We refer to these game-specific executable models as Game Code World Models (GameCWMs). However, current approaches to generating code world models rely on frontier models and inference-time refinement loops, limiting accessibility and scalability. This work investigates whether GameCWM generation capabilities can be distilled into smaller models through post-training. We introduce: (1) a curated dataset of 30 games spanning perfect and imperfect information games, (2) a verification framework that evaluates generated code against structural and semantic game properties, and (3) a post-training pipeline combining Supervised Fine-Tuning (SFT) with Reinforcement Learning with Verifiable Rewards (RLVR). We experiment with Qwen2.5-3B-Instruct and find that SFT can increase syntactic correctness, while RLVR can improve execution-level adherence to game rules, thereby improving Qwen's ability to generate valid GameCWMs in both perfect and imperfect information games. Overall, our pipeline makes Qwen2.5-3B-Instruct more capable of generating valid GameCWMs, thereby offering a scalable path toward automatic environment generation from natural language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語から実行可能なコードを生成する優れた能力を示し、AIエージェントの環境を自動構築する可能性を開放している。
Code World Models (CWMs)に関する最近の研究は、LLMがゲームルールをMonte Carlo Tree Searchのような解決ツールと互換性のあるPython実装に変換することを実証している。
生成した環境はルール,法的行動,状態遷移,観察,報酬を実装しなければならない。
ゲームコードワールドモデル(Game Code World Models, GameCWMs)と呼ぶ。
しかし、現在のコードワールドモデル生成のアプローチは、アクセシビリティとスケーラビリティを制限するために、フロンティアモデルと推論時の改善ループに依存している。
本研究は,ゲームCWM生成能力を,後学習によりより小さなモデルに蒸留できるかどうかを考察する。
1)完全かつ不完全な情報ゲームにまたがる30のゲームからなるキュレートデータセット,(2)構造的および意味的なゲーム特性に対して生成されたコードを評価する検証フレームワーク,(3)スーパービジョンファインチューニング(SFT)とReinforcement Learning with Verifiable Rewards(RLVR)を組み合わせたポストトレーニングパイプラインを紹介する。
我々はQwen2.5-3B-Instructを実験し、SFTが構文的正当性を向上できるのに対して、RLVRはゲームルールに対する実行レベルの順守を改善し、完全かつ不完全な情報ゲームにおいて有効なゲームCWMを生成する能力を向上させる。
全体として、Qwen2.5-3B-Instructは有効なGameCWMを生成し、自然言語から自動環境生成へのスケーラブルなパスを提供する。
関連論文リスト
- From Gameplay Traces to Game Mechanics: Causal Induction with Large Language Models [64.43268969806098]
本稿では,観測データから法則を推定できる因果誘導について検討する。
本稿では,VGDL生成に対する2つのアプローチを比較する。観測からの直接コード生成と,まず構造因果モデル(SCM)を推定し,次にVGDLに変換する2段階法である。
その結果,SCMに基づくアプローチは,直接生成よりも基礎的真実に近いVGDL記述を多く生み出すことがわかった。
論文 参考訳(メタデータ) (2026-01-30T08:48:23Z) - Code World Models for General Game Playing [22.382021070682256]
我々はLarge Language Modelsを用いて、自然言語規則とゲーム軌跡をPythonコードとして表現された形式的で実行可能な世界モデルに変換する。
この生成モデルは、高性能計画アルゴリズムの検証可能なシミュレーションエンジンとして機能する。
提案手法は,10ゲーム中9ゲームにおいて,Gemini 2.5 Proより優れているか,あるいは一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-06T07:16:07Z) - GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。
ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。
ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - Measuring General Intelligence with Generated Games [35.118590734217264]
gg-benchは、言語モデルにおける一般的な推論能力を評価するために設計されたゲーム環境の集合である。
gg-bench は,(1) 大規模言語モデル(LLM) を用いて新規ゲームの自然言語記述を生成し,(2) LLM を用いて,Gym 環境としてコード内の各ゲームを実装し,(3) 生成したゲーム上での自己プレイによる強化学習(RL) エージェントを訓練することにより,合成的に生成する。
論文 参考訳(メタデータ) (2025-05-12T04:01:03Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。