論文の概要: Resolving Crash Bugs via Large Language Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2312.10448v1
- Date: Sat, 16 Dec 2023 13:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-19 16:31:07.416428
- Title: Resolving Crash Bugs via Large Language Models: An Empirical Study
- Title(参考訳): 大規模な言語モデルによるクラッシュバグの解決:実証的研究
- Authors: Xueying Du, Mingwei Liu, Juntao Li, Hanlin Wang, Xin Peng, Yiling Lou
- Abstract要約: クラッシュバグは予期せぬプログラムの動作や終了を引き起こし、高優先度の解決を必要とする。
近年の大規模言語モデル(LLM)であるChatGPTは、様々な領域にまたがる例外的なパフォーマンスのため、大きな注目を集めている。
この研究は、ChatGPTの実際のクラッシュバグ解決能力に関する最初の調査を行い、コード関連および環境関連クラッシュバグのローカライズと修復の両面での有効性に焦点を当てた。
- 参考スコア(独自算出の注目度): 20.32724670868432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crash bugs cause unexpected program behaviors or even termination, requiring
high-priority resolution. However, manually resolving crash bugs is challenging
and labor-intensive, and researchers have proposed various techniques for their
automated localization and repair. ChatGPT, a recent large language model
(LLM), has garnered significant attention due to its exceptional performance
across various domains. This work performs the first investigation into
ChatGPT's capability in resolve real-world crash bugs, focusing on its
effectiveness in both localizing and repairing code-related and
environment-related crash bugs. Specifically, we initially assess ChatGPT's
fundamental ability to resolve crash bugs with basic prompts in a single
iteration. We observe that ChatGPT performs better at resolving code-related
crash bugs compared to environment-related ones, and its primary challenge in
resolution lies in inaccurate localization. Additionally, we explore ChatGPT's
potential with various advanced prompts. Furthermore, by stimulating ChatGPT's
self-planning, it methodically investigates each potential crash-causing
environmental factor through proactive inquiry, ultimately identifying the root
cause of the crash. Based on our findings, we propose IntDiagSolver, an
interaction methodology designed to facilitate precise crash bug resolution
through continuous interaction with LLMs. Evaluating IntDiagSolver on multiple
LLMs reveals consistent enhancement in the accuracy of crash bug resolution,
including ChatGPT, Claude, and CodeLlama.
- Abstract(参考訳): クラッシュバグは予期せぬプログラム動作や終了を引き起こし、高優先度の解決を必要とする。
しかし、手動でクラッシュバグを解決するのは困難で、労働集約的であり、研究者は自動ローカライズと修復のための様々な手法を提案している。
最近の大規模言語モデル(llm)であるchatgptは、さまざまなドメインにまたがる優れたパフォーマンスにより、大きな注目を集めている。
この研究は、ChatGPTの実際のクラッシュバグ解決能力に関する最初の調査を行い、コード関連および環境関連クラッシュバグのローカライズと修復の両面での有効性に焦点を当てた。
具体的には、最初ChatGPTのクラッシュバグを1回のイテレーションで基本的なプロンプトで解決する基本的な能力を評価します。
また,ChatGPTは環境関連よりもコード関連のクラッシュバグの解決に優れており,その解決における最大の課題は,不正確なローカライゼーションにある。
さらに、ChatGPTのポテンシャルを様々な高度なプロンプトで探求する。
さらに,chatgptの自己計画を刺激することにより,事故の原因を究極的に特定する積極的な調査を通じて,それぞれの潜在的なクラッシュ原因環境因子を体系的に調査する。
本研究は,LSMとの連続的な相互作用を通じて,正確なクラッシュバグ解決を容易にするためのインタラクション手法であるIntDiagSolverを提案する。
複数のLLM上でIntDiagSolverを評価すると、ChatGPT、Claude、CodeLlamaなど、クラッシュバグ解決の精度が一貫した向上が見られる。
関連論文リスト
- Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python [0.0]
ChatGPT-4、Claude 3、LLaMA 4のような大規模言語モデル(LLM)は、ソフトウェア/アプリケーション開発にますます組み込まれている。
本研究では,プログラムエラー,古典的セキュリティ欠陥,およびC++とPythonの高度なプロダクショングレードバグのベンチマークを用いて,これら3つの主要なLCMの体系的,実証的な評価を行う。
論文 参考訳(メタデータ) (2025-08-22T14:30:24Z) - Bridging Solidity Evolution Gaps: An LLM-Enhanced Approach for Smart Contract Compilation Error Resolution [2.967464333639626]
主要なスマートコントラクト言語であるSolidityは、セキュリティ、機能、開発者エクスペリエンスを向上させるために、頻繁なバージョンアップデートによって急速に進化している。
我々は、Solidityバージョン進化の課題を調査するための実証的研究を行い、調査対象の契約の81.68%が、異なるバージョンにまたがってコンパイルされたときにエラーに遭遇し、86.92%がコンパイルエラーであることを示した。
SMCFIXERは,Solidityコンパイルエラー解決のためのLLMベースの修復機構と専門家知識検索を統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-14T10:42:26Z) - Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文 参考訳(メタデータ) (2025-06-12T07:24:59Z) - Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models [4.757323827658957]
自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。
近年の研究では、LLMを修復に利用できることが示されている。
オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
論文 参考訳(メタデータ) (2025-06-03T18:15:14Z) - Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。
BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文 参考訳(メタデータ) (2025-02-19T18:59:32Z) - Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points [51.40935517552926]
Focused-DPOは、優先度最適化を重要なエラー発生箇所に向けることで、コード生成を強化するフレームワークである。
エラーを起こしやすい点に焦点を当てることで、Focused-DPOはモデル生成コードの正確性と機能を向上させる。
論文 参考訳(メタデータ) (2025-02-17T06:16:02Z) - PATCH: Empowering Large Language Model with Programmer-Intent Guidance and Collaborative-Behavior Simulation for Automatic Bug Fixing [34.768989900184636]
バグ修正は、ソフトウェア開発とメンテナンスにおいて重要な意味を持つ。
最近の研究は、ソフトウェアバグを自動的に解決する大規模言語モデル(LLM)の可能性を探ることに大きく貢献している。
論文 参考訳(メタデータ) (2025-01-27T15:43:04Z) - LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [5.910272203315325]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。
MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。
これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文 参考訳(メタデータ) (2024-10-02T03:57:21Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - ChatGPT for Vulnerability Detection, Classification, and Repair: How Far
Are We? [24.61869093475626]
ChatGPTのような大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な進歩を見せた。
ソフトウェア脆弱性のために設計された最先端言語モデルとChatGPTを比較した。
ChatGPTは限られたパフォーマンスを実現し、脆弱性コンテキストにおける他の言語モデルよりも大幅に遅れていることがわかった。
論文 参考訳(メタデータ) (2023-10-15T12:01:35Z) - A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair [19.123640635549524]
大規模言語モデル(LLM)が注目され、様々なソフトウェアエンジニアリングタスクで有望なパフォーマンスを示した。
本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで概説する。
ChatGPTは、35ラウンド以内の基本的なプロンプトを使用して151のバグギープログラムのうち109を修正でき、最先端のLLM CodeT5とPLBARTを27.5%、予測精度62.4%で上回っている。
論文 参考訳(メタデータ) (2023-10-13T06:11:47Z) - Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。
本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。
この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文 参考訳(メタデータ) (2023-07-17T06:06:58Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - What to Prioritize? Natural Language Processing for the Development of a
Modern Bug Tracking Solution in Hardware Development [0.0]
我々は、異なる教師付き機械学習アルゴリズムを用いて、バグレポートの修正時間、リスク、複雑さを予測するアプローチを提案する。
評価の結果,Universal Sentenceモデルによって生成されたテキスト埋め込みの組み合わせは,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-28T15:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。