論文の概要: BugCraft: End-to-End Crash Bug Reproduction Using LLM Agents in Minecraft
- arxiv url: http://arxiv.org/abs/2503.20036v1
- Date: Tue, 25 Mar 2025 19:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:21.981133
- Title: BugCraft: End-to-End Crash Bug Reproduction Using LLM Agents in Minecraft
- Title(参考訳): BugCraft: MinecraftのLLMエージェントを使ったエンドツーエンドのクラッシュバグ再現
- Authors: Eray Yapağcı, Yavuz Alp Sencer Öztürk, Eray Tüzün,
- Abstract要約: BugCraftは、Minecraftのクラッシュバグの再現を自動化するために設計されたエンドツーエンドフレームワークである。
ステップシンセサイザーは、ユーザが提出したバグレポートを構造化ステップに変換して再生する(S2R)
Action Modelは、Minecraft内でこれらのS2Rステップを実行し、報告されたクラッシュをトリガーする。
BugCraft-Benchで評価した結果,クラッシュバグの30.23%をエンドツーエンドで再現できたのです。
- 参考スコア(独自算出の注目度): 2.2134505920972547
- License:
- Abstract: Reproducing game bugs, in our case crash bugs in continuously evolving games like Minecraft, is a notoriously manual, time-consuming, and challenging process to automate. Despite the success of LLM-driven bug reproduction in other software domains, games, with their complex interactive environments, remain largely unaddressed. This paper introduces BugCraft, a novel end-to-end framework designed to automate the reproduction of crash bugs in Minecraft directly from user-submitted bug reports, addressing the critical gap in automated game bug reproduction. BugCraft employs a two-stage approach: first, a Step Synthesizer leverages LLMs and Minecraft Wiki knowledge to transform bug reports into high-quality, structured steps to reproduce (S2R). Second, an Action Model, powered by a vision-based LLM agent (GPT-4o) and a custom macro API, executes these S2R steps within Minecraft to trigger the reported crash. To facilitate evaluation, we introduce BugCraft-Bench, a curated dataset of Minecraft crash bug reports. Evaluated on BugCraft-Bench, our framework successfully reproduced 30.23% of crash bugs end-to-end. The Step Synthesizer demonstrated a 66.28% accuracy in generating correct bug reproduction plans, highlighting its effectiveness in interpreting and structuring bug report information. BugCraft demonstrates the feasibility of automated reproduction of crash bugs in complex game environments using LLMs, opening promising avenues for game testing and development. The framework and the BugCraft-Bench dataset pave the way for future research in automated game bug analysis and hold potential for generalization to other interactive game platforms. Finally, we make our code open at https://bugcraft2025.github.io/
- Abstract(参考訳): Minecraftのような継続的な進化を続けるゲームのクラッシュバグを再現するゲームバグは、手作業で、時間がかかり、自動化が難しいことで知られています。
他のソフトウェア領域でのLLM駆動のバグ再現の成功にもかかわらず、複雑なインタラクティブ環境を持つゲームは、ほとんど役に立たないままである。
本稿では,Minecraftにおけるクラッシュバグの再現をユーザからの報告から直接自動化する,新たなエンドツーエンドフレームワークであるBugCraftを紹介し,自動ゲームバグの再現における重大なギャップに対処する。
まず、ステップシンセサイザーはLSMとMinecraft Wikiの知識を活用して、バグレポートを高品質で構造化されたステップに変換します(S2R)。
第2に、視覚ベースのLLMエージェント(GPT-4o)とカスタムマクロAPIを備えたアクションモデルが、Minecraft内でこれらのS2Rステップを実行して、報告されたクラッシュをトリガーする。
評価を容易にするために,MinecraftのクラッシュバグレポートのキュレートしたデータセットであるBugCraft-Benchを紹介した。
私たちのフレームワークはBugCraft-Benchで評価され、エンドツーエンドのクラッシュバグの30.23%を再現しました。
Step Synthesizerは66.28%の精度で正確なバグ再現計画を作成し、バグ報告情報の解釈と構造化の有効性を強調した。
BugCraftは、LLMを使用して複雑なゲーム環境におけるクラッシュバグの自動再現の実現可能性を示し、ゲームテストと開発に有望な道を開く。
このフレームワークとBugCraft-Benchデータセットは、自動ゲームバグ分析における将来の研究の道を開き、他のインタラクティブなゲームプラットフォームへの一般化の可能性を秘めている。
最後に、コードをhttps://bugcraft2025.github.io/で公開します。
関連論文リスト
- DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft [88.80684763462384]
本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。
実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:58:12Z) - Can LLMs Demystify Bug Reports? [0.6650227510403052]
ChatGPTは報告されたバグの50%を解読し、再現することができた。
報告されたバグの半数に自動的に対処できることは、バグに対処するために機械学習を適用することで、バグを報告できるのは人力のみである、という有望な可能性を示している。
論文 参考訳(メタデータ) (2023-10-10T05:07:00Z) - Automated Bug Generation in the era of Large Language Models [6.0770779409377775]
BugFarmは任意のコードを複数の複雑なバグに変換する。
BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文 参考訳(メタデータ) (2023-10-03T20:01:51Z) - PreciseBugCollector: Extensible, Executable and Precise Bug-fix
Collection [8.79879909193717]
正確な多言語バグ収集手法であるPreciseBugCollectorを紹介する。
外部バグリポジトリでリポジトリをマップしてバグタイプ情報をトレースするバグトラッカと、プロジェクト固有のバグを生成するバグインジェクタの2つの新しいコンポーネントに基づいている。
現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。
論文 参考訳(メタデータ) (2023-09-12T13:47:44Z) - Bugsplainer: Leveraging Code Structures to Explain Software Bugs with
Neural Machine Translation [4.519754139322585]
Bugsplainerは、バグ修正コミットの大規模なコーパスから学ぶことによって、ソフトウェアバグの自然言語説明を生成する。
Bugsplainerはバグを推論するためにコード構造を利用し、テキスト生成モデルの微調整バージョンであるCodeT5を採用している。
論文 参考訳(メタデータ) (2023-08-23T17:35:16Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。