論文の概要: Agents in the Sandbox: End-to-End Crash Bug Reproduction for Minecraft
- arxiv url: http://arxiv.org/abs/2503.20036v2
- Date: Fri, 10 Oct 2025 18:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.331094
- Title: Agents in the Sandbox: End-to-End Crash Bug Reproduction for Minecraft
- Title(参考訳): サンドボックスのエージェント:マインクラフトの終わりから終わりまでのクラッシュバグ再現
- Authors: Eray Yapağcı, Yavuz Alp Sencer Öztürk, Eray Tüzün,
- Abstract要約: Minecraftのような継続的な進化を続けるゲームにおいて、特にクラッシュのバグを再現することは、手動で時間をかけ、自動化するのに難しいプロセスです。
本稿では,Minecraftのクラッシュバグの再現をユーザからの報告から直接自動化する,新たなエンドツーエンドフレームワークであるBugCraftを紹介する。
BugCraft-Benchでは、我々のフレームワークはGPT-4.1で34.9%のクラッシュバグを再現し、ベースラインのコンピュータ使用モデルを37%上回った。
- 参考スコア(独自算出の注目度): 1.4465033892011254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reproducing game bugs, particularly crash bugs in continuously evolving games like Minecraft, is a notoriously manual, time-consuming, and challenging process to automate; insights from a key decision maker from Minecraft we interviewed confirm this, highlighting that a substantial portion of crash reports necessitate manual scenario reconstruction. Despite the success of LLM-driven bug reproduction in other software domains, games, with their complex interactive environments, remain largely unaddressed. This paper introduces BugCraft, a novel end-to-end framework designed to automate the reproduction of crash bugs in Minecraft directly from user-submitted bug reports, addressing the critical gap in automated game bug reproduction. BugCraft employs a two-stage approach: first, a Step Synthesizer leverages LLMs and Minecraft Wiki knowledge to transform bug reports into high-quality, structured steps to reproduce (S2R). Second, an Action Model, powered by a vision-based LLM agent and a custom macro API, executes these S2R steps within Minecraft to trigger the reported crash. To facilitate evaluation, we introduce BugCraft-Bench, a curated dataset of Minecraft crash bug reports. On BugCraft-Bench, our framework end-to-end reproduced 34.9% of crash bugs with GPT-4.1, outperforming baseline computer-use models by 37%. BugCraft demonstrates the feasibility of automated reproduction of crash bugs in complex game environments using LLMs, opening promising avenues for game testing and development. Finally, we make our code open at https://bugcraft2025.github.io
- Abstract(参考訳): Minecraftのような連続的に進化しているゲームにおいて、特にクラッシュのバグを再現することは、手作業で、時間がかかり、自動化が難しいという悪名高いプロセスだ。
他のソフトウェア領域でのLLM駆動のバグ再現の成功にもかかわらず、複雑なインタラクティブ環境を持つゲームは、ほとんど役に立たないままである。
本稿では,Minecraftにおけるクラッシュバグの再現をユーザからの報告から直接自動化する,新たなエンドツーエンドフレームワークであるBugCraftを紹介し,自動ゲームバグの再現における重大なギャップに対処する。
まず、ステップシンセサイザーはLSMとMinecraft Wikiの知識を活用して、バグレポートを高品質で構造化されたステップに変換します(S2R)。
第2に、視覚ベースのLLMエージェントとカスタムマクロAPIを備えたアクションモデルが、Minecraft内でこれらのS2Rステップを実行して、報告されたクラッシュをトリガーする。
評価を容易にするために,MinecraftのクラッシュバグレポートのキュレートしたデータセットであるBugCraft-Benchを紹介した。
BugCraft-Benchでは、我々のフレームワークはGPT-4.1で34.9%のクラッシュバグを再現し、ベースラインのコンピュータ使用モデルを37%上回った。
BugCraftは、LLMを使用して複雑なゲーム環境におけるクラッシュバグの自動再現の実現可能性を示し、ゲームテストと開発に有望な道を開く。
最後に、コードをhttps://bugcraft2025.github.ioで公開します。
関連論文リスト
- Automated Bug Frame Retrieval from Gameplay Videos Using Vision-Language Models [47.63488459021783]
報告されたバグ記述に最もよくマッチする単一のフレームに、各動画を縮小するパイプラインを導入する。
このアプローチは手作業を大幅に削減し、トリアージと回帰チェックを高速化します。
ゲーム業界全体で品質保証チームや開発者に実践的なメリットを提供する。
論文 参考訳(メタデータ) (2025-08-06T21:52:15Z) - BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。
BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。
5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文 参考訳(メタデータ) (2025-06-12T09:02:20Z) - CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文 参考訳(メタデータ) (2025-04-29T04:18:51Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft [88.80684763462384]
本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。
実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:58:12Z) - Can LLMs Demystify Bug Reports? [0.6650227510403052]
ChatGPTは報告されたバグの50%を解読し、再現することができた。
報告されたバグの半数に自動的に対処できることは、バグに対処するために機械学習を適用することで、バグを報告できるのは人力のみである、という有望な可能性を示している。
論文 参考訳(メタデータ) (2023-10-10T05:07:00Z) - Automated Bug Generation in the era of Large Language Models [6.0770779409377775]
BugFarmは任意のコードを複数の複雑なバグに変換する。
BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文 参考訳(メタデータ) (2023-10-03T20:01:51Z) - PreciseBugCollector: Extensible, Executable and Precise Bug-fix
Collection [8.79879909193717]
正確な多言語バグ収集手法であるPreciseBugCollectorを紹介する。
外部バグリポジトリでリポジトリをマップしてバグタイプ情報をトレースするバグトラッカと、プロジェクト固有のバグを生成するバグインジェクタの2つの新しいコンポーネントに基づいている。
現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。
論文 参考訳(メタデータ) (2023-09-12T13:47:44Z) - STEAM: Simulating the InTeractive BEhavior of ProgrAMmers for Automatic
Bug Fixing [37.70518599085676]
我々は、バグ解決の協調性をシミュレートするSTEAMという新しいステージワイドフレームワークを紹介した。
バグ修正タスクを,バグ報告,バグ診断,パッチ生成,パッチ検証の4つのステージに分割する。
広く採用されているバグフィックスベンチマークによる評価は、STEAMが最新のバグフィックス性能を新たに達成したことを示している。
論文 参考訳(メタデータ) (2023-08-28T09:56:12Z) - Bugsplainer: Leveraging Code Structures to Explain Software Bugs with
Neural Machine Translation [4.519754139322585]
Bugsplainerは、バグ修正コミットの大規模なコーパスから学ぶことによって、ソフトウェアバグの自然言語説明を生成する。
Bugsplainerはバグを推論するためにコード構造を利用し、テキスト生成モデルの微調整バージョンであるCodeT5を採用している。
論文 参考訳(メタデータ) (2023-08-23T17:35:16Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。