論文の概要: GameGen-Verifier: Parallel Keypoint-Based Verification for LLM-Generated Games via Runtime State Injection
- arxiv url: http://arxiv.org/abs/2605.07442v1
- Date: Fri, 08 May 2026 08:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.925239
- Title: GameGen-Verifier: Parallel Keypoint-Based Verification for LLM-Generated Games via Runtime State Injection
- Title(参考訳): GameGen-Verifier:実行時状態注入によるLLM生成ゲームのための並列キーポイントベースの検証
- Authors: Chaobo Jia, Ruipeng Wan, Ting Sun, Weihao Tan, Borui Wan, Yuxuan Tong, Guangming Sheng, Hong Xu,
- Abstract要約: GameGen-Verifierは、仕様を検証可能なキーポイントに分解し、それらを独立した検証ユニットに分類する。
VeriGameでは、7つのジャンルにまたがる100のゲームのデータセットであるGameGen-Verifierが、人間の判断に対して最大92.2%の精度を達成した。
- 参考スコア(独自算出の注目度): 5.552431662875654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based game generation promises to turn natural-language specifications into executable games, but progress is limited by the lack of reliable automated verification. Unlike conventional code generation, game correctness is defined over long-horizon interaction: a game may appear correct while violating core mechanics such as state updates, interaction rules, and phase transitions. Existing Agent-as-a-Verifier approaches collapse verification into open-ended gameplay, making verdicts reachability-bound, time-consuming, coverage-limited, and sensitive to the agent's gameplay ability. We present GameGen-Verifier, an automated verification paradigm for LLM-generated games that decomposes a specification into verifiable keypoints and grounds them into independent verification units. Each unit patches the game runtime into a concrete target state, executes a bounded interaction, and judges the outcome against the keypoint assertion. We implement GGV-Harness, a scalable agentic harness providing concurrency management, runtime isolation, and fault recovery. On VeriGame, our dataset of 100 games across seven genres, GameGen-Verifier achieves up to 92.2% accuracy against human judgments versus 58.8% for the coverage-enforced Agent-as-a-Verifier baseline, while reducing wall-clock time by up to 16.6x.
- Abstract(参考訳): LLMベースのゲーム生成は、自然言語仕様を実行可能なゲームに変換することを約束するが、信頼性の高い自動検証の欠如により進歩は制限される。
ゲームは状態更新、相互作用ルール、フェーズ遷移などのコアメカニックに違反しながら正しいように見える。
既存のエージェント・アズ・ア・ヴェリファイアは、崩壊検証をオープンエンドのゲームプレイにアプローチし、評価を到達可能性に縛られ、時間がかかり、カバー範囲が制限され、エージェントのゲームプレイ能力に敏感になる。
我々は, LLM生成ゲームの自動検証パラダイムであるGameGen-Verifierを紹介し, 仕様を検証キーポイントに分解し, 独立した検証ユニットに分類する。
各ユニットは、ゲームランタイムを具体的なターゲット状態にパッチし、バウンドされたインタラクションを実行し、キーポイントアサーションに対して結果を判断する。
GGV-Harnessは、並行管理、ランタイムアイソレーション、障害復旧を提供するスケーラブルなエージェントハーネスである。
VeriGameでは、7つのジャンルにまたがる100のゲームのデータセットであるGameGen-Verifierは、人間の判断に対して92.2%の精度を達成し、カバー強化されたAgen-as-a-Verifierベースラインでは58.8%の精度でウォールタイム時間を最大16.6倍に短縮した。
関連論文リスト
- GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - Decoding Defensive Coverage Responsibilities in American Football Using Factorized Attention Based Transformer Models [0.22485007639406518]
本稿では,NFLマルチエージェントプレイトラッキングデータに適用した因子化アテンションベーストランスフォーマモデルを提案する。
本モデルにより,各プレイヤの代入とマッチアップのダイナミクスの予測モデリングが可能となる。
我々のモデルは全てのタスクに対して約89%以上の精度を達成し、真の精度は基底真理ラベルにおけるアノテーションの曖昧さを考慮に入れられる可能性がある。
論文 参考訳(メタデータ) (2026-03-26T20:43:30Z) - MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games [79.72300527041534]
マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。
回転する小さな偏差は、多エージェントカップリングによって増幅される。
自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
論文 参考訳(メタデータ) (2026-03-09T23:36:32Z) - From Gameplay Traces to Game Mechanics: Causal Induction with Large Language Models [64.43268969806098]
本稿では,観測データから法則を推定できる因果誘導について検討する。
本稿では,VGDL生成に対する2つのアプローチを比較する。観測からの直接コード生成と,まず構造因果モデル(SCM)を推定し,次にVGDLに変換する2段階法である。
その結果,SCMに基づくアプローチは,直接生成よりも基礎的真実に近いVGDL記述を多く生み出すことがわかった。
論文 参考訳(メタデータ) (2026-01-30T08:48:23Z) - Synergizing Code Coverage and Gameplay Intent: Coverage-Aware Game Playtesting with LLM-Guided Reinforcement Learning [4.3706127838450035]
ゲーム・アズ・ア・サービス(Games as a Service)モデルは頻繁なコンテンツ更新を必要とする。
コード中心の手法は、ゲームプレイコンテキストを理解せずに構造的カバレッジに焦点を当てる。
ゲーム更新テストのための構造検証と機能検証を相乗化する新しいフレームワークSMARTを提案する。
論文 参考訳(メタデータ) (2025-12-14T14:18:18Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - "To Survive, I Must Defect": Jailbreaking LLMs via the Game-Theory Scenarios [29.861219638412578]
スケーラブルなブラックボックスジェイルブレイクフレームワークであるGame-Theory Attack (GTA)を提案する。
GTAは攻撃者の安全に配慮したLLMに対するインタラクションを形式化する。
GTA は Deepseek-R1 などの LLM 上で95% 以上の ASR を達成することを示す。
論文 参考訳(メタデータ) (2025-11-20T11:56:00Z) - Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - Regulation Games for Trustworthy Machine Learning [36.650015454939414]
本稿では,信頼性の高い機械学習を多目的マルチエージェント最適化問題とみなすフレームワークを提案する。
これは当然、私たちが規制ゲームと呼ぶゲーム理論の定式化に結びつく。
性別分類アプリケーションでは、規制当局がまず希望する保証を規定するイニシアチブを採れば、平均4.0以下の差分プライバシー予算を適用できることを示す。
論文 参考訳(メタデータ) (2024-02-05T21:54:28Z) - Collusion Detection in Team-Based Multiplayer Games [57.153233321515984]
チームベースのマルチプレイヤーゲームにおいて,協調動作を検出するシステムを提案する。
提案手法は,ゲーム内行動パターンと組み合わせたプレイヤーの社会的関係を解析する。
次に,非教師なし学習手法であるアイソレーションフォレストによる検出を自動化する。
論文 参考訳(メタデータ) (2022-03-10T02:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。