論文の概要: V-GameGym: Visual Game Generation for Code Large Language Models
- arxiv url: http://arxiv.org/abs/2509.20136v1
- Date: Wed, 24 Sep 2025 14:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.836277
- Title: V-GameGym: Visual Game Generation for Code Large Language Models
- Title(参考訳): V-GameGym: コード大言語モデルのためのビジュアルゲーム生成
- Authors: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou,
- Abstract要約: V-GameGymは100のテーマクラスタにわたる2,219の高品質なサンプルからなる総合的なベンチマークである。
視覚的コード合成のためのLLM駆動パイプラインを自動化したマルチモーダル評価フレームワークを提案する。
解析の結果,V-GameGymはコード生成精度と実用的なゲーム開発とのギャップを効果的に埋めることがわかった。
- 参考スコア(独自算出の注目度): 29.687615056084166
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code large language models have demonstrated remarkable capabilities in programming tasks, yet current benchmarks primarily focus on single modality rather than visual game development. Most existing code-related benchmarks evaluate syntax correctness and execution accuracy, overlooking critical game-specific metrics such as playability, visual aesthetics, and user engagement that are essential for real-world deployment. To address the gap between current LLM capabilities in algorithmic problem-solving and competitive programming versus the comprehensive requirements of practical game development, we present V-GameGym, a comprehensive benchmark comprising 2,219 high-quality samples across 100 thematic clusters derived from real-world repositories, adopting a novel clustering-based curation methodology to ensure both diversity and structural completeness. Further, we introduce a multimodal evaluation framework with an automated LLM-driven pipeline for visual code synthesis using complete UI sandbox environments. Our extensive analysis reveals that V-GameGym effectively bridges the gap between code generation accuracy and practical game development workflows, providing quantifiable quality metrics for visual programming and interactive element generation.
- Abstract(参考訳): コード大言語モデルはプログラミングタスクにおいて顕著な能力を示してきたが、現在のベンチマークは主に視覚ゲーム開発よりも単一のモダリティに焦点を当てている。
既存のコード関連ベンチマークの多くは、構文の正確さと実行精度を評価しており、現実のデプロイメントに不可欠なプレイ性、視覚美学、ユーザエンゲージメントといった、ゲーム固有の重要な指標を見渡している。
アルゴリズムによる問題解決と競合プログラミングにおける現在のLLM能力と、実用的なゲーム開発における包括的な要件とのギャップを解決するため、現実のリポジトリから派生した100のテーマクラスタにわたる2,219の高品質なサンプルからなる総合的なベンチマークであるV-GameGymを紹介し、多様性と構造的完全性の両方を保証するために、新しいクラスタリングベースのキュレーション手法を採用する。
さらに,完全なUIサンドボックス環境を用いた視覚的コード合成のためのLLM駆動パイプラインを自動化したマルチモーダル評価フレームワークを提案する。
V-GameGymはコード生成精度と実用的なゲーム開発ワークフローのギャップを効果的に埋め、ビジュアルプログラミングとインタラクティブな要素生成のための定量的な品質指標を提供する。
関連論文リスト
- VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [8.640618631999173]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [48.24550684610705]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。