論文の概要: Resolving Crash Bugs via Large Language Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2312.10448v1
- Date: Sat, 16 Dec 2023 13:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:31:07.416428
- Title: Resolving Crash Bugs via Large Language Models: An Empirical Study
- Title(参考訳): 大規模な言語モデルによるクラッシュバグの解決:実証的研究
- Authors: Xueying Du, Mingwei Liu, Juntao Li, Hanlin Wang, Xin Peng, Yiling Lou
- Abstract要約: クラッシュバグは予期せぬプログラムの動作や終了を引き起こし、高優先度の解決を必要とする。
近年の大規模言語モデル(LLM)であるChatGPTは、様々な領域にまたがる例外的なパフォーマンスのため、大きな注目を集めている。
この研究は、ChatGPTの実際のクラッシュバグ解決能力に関する最初の調査を行い、コード関連および環境関連クラッシュバグのローカライズと修復の両面での有効性に焦点を当てた。
- 参考スコア(独自算出の注目度): 20.32724670868432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crash bugs cause unexpected program behaviors or even termination, requiring
high-priority resolution. However, manually resolving crash bugs is challenging
and labor-intensive, and researchers have proposed various techniques for their
automated localization and repair. ChatGPT, a recent large language model
(LLM), has garnered significant attention due to its exceptional performance
across various domains. This work performs the first investigation into
ChatGPT's capability in resolve real-world crash bugs, focusing on its
effectiveness in both localizing and repairing code-related and
environment-related crash bugs. Specifically, we initially assess ChatGPT's
fundamental ability to resolve crash bugs with basic prompts in a single
iteration. We observe that ChatGPT performs better at resolving code-related
crash bugs compared to environment-related ones, and its primary challenge in
resolution lies in inaccurate localization. Additionally, we explore ChatGPT's
potential with various advanced prompts. Furthermore, by stimulating ChatGPT's
self-planning, it methodically investigates each potential crash-causing
environmental factor through proactive inquiry, ultimately identifying the root
cause of the crash. Based on our findings, we propose IntDiagSolver, an
interaction methodology designed to facilitate precise crash bug resolution
through continuous interaction with LLMs. Evaluating IntDiagSolver on multiple
LLMs reveals consistent enhancement in the accuracy of crash bug resolution,
including ChatGPT, Claude, and CodeLlama.
- Abstract(参考訳): クラッシュバグは予期せぬプログラム動作や終了を引き起こし、高優先度の解決を必要とする。
しかし、手動でクラッシュバグを解決するのは困難で、労働集約的であり、研究者は自動ローカライズと修復のための様々な手法を提案している。
最近の大規模言語モデル(llm)であるchatgptは、さまざまなドメインにまたがる優れたパフォーマンスにより、大きな注目を集めている。
この研究は、ChatGPTの実際のクラッシュバグ解決能力に関する最初の調査を行い、コード関連および環境関連クラッシュバグのローカライズと修復の両面での有効性に焦点を当てた。
具体的には、最初ChatGPTのクラッシュバグを1回のイテレーションで基本的なプロンプトで解決する基本的な能力を評価します。
また,ChatGPTは環境関連よりもコード関連のクラッシュバグの解決に優れており,その解決における最大の課題は,不正確なローカライゼーションにある。
さらに、ChatGPTのポテンシャルを様々な高度なプロンプトで探求する。
さらに,chatgptの自己計画を刺激することにより,事故の原因を究極的に特定する積極的な調査を通じて,それぞれの潜在的なクラッシュ原因環境因子を体系的に調査する。
本研究は,LSMとの連続的な相互作用を通じて,正確なクラッシュバグ解決を容易にするためのインタラクション手法であるIntDiagSolverを提案する。
複数のLLM上でIntDiagSolverを評価すると、ChatGPT、Claude、CodeLlamaなど、クラッシュバグ解決の精度が一貫した向上が見られる。
関連論文リスト
- From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [5.910272203315325]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。
MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。
これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文 参考訳(メタデータ) (2024-10-02T03:57:21Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - ChatGPT for Vulnerability Detection, Classification, and Repair: How Far
Are We? [24.61869093475626]
ChatGPTのような大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な進歩を見せた。
ソフトウェア脆弱性のために設計された最先端言語モデルとChatGPTを比較した。
ChatGPTは限られたパフォーマンスを実現し、脆弱性コンテキストにおける他の言語モデルよりも大幅に遅れていることがわかった。
論文 参考訳(メタデータ) (2023-10-15T12:01:35Z) - A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair [19.123640635549524]
大規模言語モデル(LLM)が注目され、様々なソフトウェアエンジニアリングタスクで有望なパフォーマンスを示した。
本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで概説する。
ChatGPTは、35ラウンド以内の基本的なプロンプトを使用して151のバグギープログラムのうち109を修正でき、最先端のLLM CodeT5とPLBARTを27.5%、予測精度62.4%で上回っている。
論文 参考訳(メタデータ) (2023-10-13T06:11:47Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。
本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。
この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文 参考訳(メタデータ) (2023-07-17T06:06:58Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - What to Prioritize? Natural Language Processing for the Development of a
Modern Bug Tracking Solution in Hardware Development [0.0]
我々は、異なる教師付き機械学習アルゴリズムを用いて、バグレポートの修正時間、リスク、複雑さを予測するアプローチを提案する。
評価の結果,Universal Sentenceモデルによって生成されたテキスト埋め込みの組み合わせは,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-28T15:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。