Fugu-MT 論文翻訳(概要): GameDevBench: Evaluating Agentic Capabilities Through Game Development

論文の概要: GameDevBench: Evaluating Agentic Capabilities Through Game Development

arxiv url: http://arxiv.org/abs/2602.11103v1
Date: Wed, 11 Feb 2026 18:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 21:44:02.299872
Title: GameDevBench: Evaluating Agentic Capabilities Through Game Development
Title（参考訳）: GameDevBench: ゲーム開発によるエージェント能力の評価
Authors: Wayne Chi, Yixiong Fang, Arnav Yayavaram, Siddharth Yayavaram, Seth Karten, Qiuhong Anna Wei, Runkun Chen, Alexander Wang, Valerie Chen, Ameet Talwalkar, Chris Donahue,
Abstract要約: ゲーム開発は、エージェントが本質的にマルチモーダル資産を操作しながら大きな密集物をナビゲートしなければならないようなテストベッドを提供する。本稿では,ゲーム開発タスクにおけるエージェント評価のための最初のベンチマークであるGameDevBenchを紹介する。エージェントは依然としてゲーム開発に苦戦しており、最高のエージェントは54.5%のタスクしか解決していない。
参考スコア（独自算出の注目度）: 49.19956546746812
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.
Abstract（参考訳）: コーディングエージェントの急速な進歩にもかかわらず、そのマルチモーダルエージェントの進歩は遅れている。重要な課題は、ソフトウェア開発の複雑さと深いマルチモーダル理解の必要性を組み合わせた評価テストベッドの不足である。ゲーム開発は、エージェントが視覚ゲームシーン内でシェーダー、スプライト、アニメーションのような本質的にマルチモーダルな資産を操作しながら、大きくて密度の高いコードベースをナビゲートしなければならないようなテストベッドを提供する。本稿では,ゲーム開発タスクにおけるエージェント評価のための最初のベンチマークであるGameDevBenchを紹介する。 GameDevBenchは、Webとビデオのチュートリアルから派生した132のタスクで構成されている。平均的なソリューションでは、以前のソフトウェア開発ベンチマークの3倍以上のコード行数とファイルの変更が必要です。エージェントは依然としてゲーム開発に苦戦しており、最高のエージェントは54.5%のタスクしか解決していない。ゲームプレイ指向タスクでは46.9%から2Dグラフィックタスクでは31.6%に低下した。マルチモーダル機能を改善するために,エージェントに対して2つの簡単な画像と映像に基づくフィードバック機構を導入する。単純さにもかかわらず、これらの手法は一貫して性能を改善し、最大の変化はクロード・ソネット4.5の性能が33.3%から47.7%に向上したことである。エージェントゲーム開発に関するさらなる研究を支援するため、GameDevBenchを公開しています。

関連論文リスト

NitroGen: An Open Foundation Model for Generalist Gaming Agents [101.41866522979548]
NitroGenは、ジェネラリストゲームエージェントのためのビジョンアクション基盤モデルである。 1000以上のゲームで4万時間のゲームプレイビデオでトレーニングされている。
論文参考訳（メタデータ） (2026-01-04T16:24:50Z)
InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search [48.79494320593913]
O3-Benchは、視覚的詳細に注意を払ってマルチモーダル推論を評価するために設計された新しいベンチマークである。 O3-Benchは、エージェントが複数のステップの推論を通じて、異なる画像領域から微妙な視覚情報をまとめることを必要とする、困難な問題を特徴としている。視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)からなるマルチエージェントフレームワークであるInSight-o3を提案する。
論文参考訳（メタデータ） (2025-12-21T14:23:07Z)
Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。 Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文参考訳（メタデータ） (2025-10-27T17:43:51Z)
FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games [56.81554611870848]
我々はFlashAdventureを紹介した。これは、フルストーリーのアーク補完をテストするために設計された、34のFlashベースのアドベンチャーゲームのベンチマークである。また,ゲームプレイの自動評価装置であるCUA-as-a-Judgeと,長期記憶を利用したエージェントフレームワークであるCOASTを提案する。実験では、現在のGUIエージェントがフルストーリーのアークに苦しむのに対して、COASTは観察と振る舞いのギャップを埋めることでマイルストーンの完了を改善する。
論文参考訳（メタデータ） (2025-09-01T01:33:16Z)
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
Cultivating Game Sense for Yourself: Making VLMs Gaming Experts [23.370716496046217]
ゲームプレイエージェント設計におけるパラダイムシフトを提案する。ゲームプレイを直接制御する代わりに、VLMは射撃や戦闘などのタスクに適した特殊な実行モジュールを開発する。これらのモジュールはリアルタイムゲームインタラクションを処理し、VLMをハイレベルな開発者に高める。
論文参考訳（メタデータ） (2025-03-27T08:40:47Z)
TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft [40.419794780178044]
オープンソースのビデオゲームMinecraft上に構築されたマルチモーダルなマルチエージェントベンチマークであるTeamCraftを紹介します。このベンチマークでは、マルチモーダルプロンプトによって指定された55,000のタスク変種、模倣学習のための手続き的に生成された専門家のデモンストレーション、モデル一般化機能を評価するための慎重に設計されたプロトコルが特徴である。以上の結果から,既存のモデルでは,新たな目標,シーン,不明なエージェントの数を一般化する上で,大きな課題が続いていることが示唆された。
論文参考訳（メタデータ） (2024-12-06T18:41:16Z)
A Survey on Large Language Model-Based Game Agents [35.34074811680046]
ゲームエージェントは、人工知能に関連する能力を探索するための貴重なテストベッドを提供する。近年、LLM(Large Language Models)の出現は、これらのエージェントに一般化可能な推論を与える新たな機会を提供する。この調査は、統一された参照アーキテクチャを通して、LLMベースのゲームエージェントの最新のレビューを提供する。
論文参考訳（メタデータ） (2024-04-02T15:34:18Z)
GameGPT: Multi-agent Collaborative Framework for Game Development [10.8750049774263]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア開発プロセスの自動化と高速化の能力を示した。本稿では,ゲーム開発を自動化するマルチエージェント協調フレームワークGameGPTを提案する。
論文参考訳（メタデータ） (2023-10-12T06:31:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。