論文の概要: ChatDBG: An AI-Powered Debugging Assistant
- arxiv url: http://arxiv.org/abs/2403.16354v2
- Date: Tue, 24 Sep 2024 15:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 03:48:22.237751
- Title: ChatDBG: An AI-Powered Debugging Assistant
- Title(参考訳): ChatDBG: AIによるデバッグアシスタント
- Authors: Kyla Levin, Nicolas van Kempen, Emery D. Berger, Stephen N. Freund,
- Abstract要約: ChatDBGはプログラマがデバッガとの共同対話を行うことを可能にする。
クラッシュやアサーション障害の根本原因分析を行うことができる。
ChatDBGは急速に普及しており、すでに5万回ダウンロードされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Debugging is a critical but challenging task for programmers. This paper proposes ChatDBG, an AI-powered debugging assistant. ChatDBG integrates large language models (LLMs) to significantly enhance the capabilities and user-friendliness of conventional debuggers. ChatDBG lets programmers engage in a collaborative dialogue with the debugger, allowing them to pose complex questions about program state, perform root cause analysis for crashes or assertion failures, and explore open-ended queries like `why is x null?'. To handle these queries, ChatDBG grants the LLM autonomy to "take the wheel": it can act as an independent agent capable of querying and controlling the debugger to navigate through stacks and inspect program state. It then reports its findings and yields back control to the programmer. Our ChatDBG prototype integrates with standard debuggers including LLDB and GDB for native code and Pdb for Python. Our evaluation across a diverse set of code, including C/C++ code with known bugs and a suite of Python code including standalone scripts and Jupyter notebooks, demonstrates that ChatDBG can successfully analyze root causes, explain bugs, and generate accurate fixes for a wide range of real-world errors. For the Python programs, a single query led to an actionable bug fix 67% of the time; one additional follow-up query increased the success rate to 85%. ChatDBG has seen rapid uptake; it has already been downloaded roughly 50,000 times.
- Abstract(参考訳): デバッグはプログラマにとって重要なタスクですが、難しい作業です。
本稿では,AIを利用したデバッグアシスタントChatDBGを提案する。
ChatDBGは、大型言語モデル(LLM)を統合し、従来のデバッガの機能とユーザフレンドリ性を著しく強化する。
ChatDBGは、プログラマがデバッガとの共同対話を行い、プログラム状態に関する複雑な質問をすることで、クラッシュやアサーション障害の根本原因分析を実行し、‘なぜx nullなのか’のようなオープンなクエリを探索することを可能にする。
これらのクエリを処理するために、ChatDBGはLLMの自律性に"車輪を取る"ことを許可している。
その後、その発見を報告し、プログラマに制御を返す。
当社のChatDBGプロトタイプは,ネイティブコード用のLLDBやGDB,Python用のPdbなど,標準的なデバッガと統合しています。
既知のバグのあるC/C++コードやスタンドアロンのスクリプトやJupyterノートブックを含むPythonコードのスイートなど、さまざまなコードに対する評価は、ChatDBGがルート原因を分析し、バグを説明し、広範囲の現実世界のエラーに対する正確な修正を生成することを実証しています。
Pythonプログラムでは、ひとつのクエリが67%の動作可能なバグ修正につながった。
ChatDBGは急速に普及しており、すでに5万回ダウンロードされている。
関連論文リスト
- MdEval: Massively Multilingual Code Debugging [37.48700033342978]
18のプログラミング言語の3.6Kテストサンプルを含む,最初の大規模多言語デバッグベンチマークを提案する。
本稿では, MDEVAL-INSTRUCT 命令コーパスを導入し, 正しい多言語クエリとソリューションにバグを注入する。
MDEVALにおける実験により,オープンソースモデルとクローズドソースLLM間の顕著な性能差が明らかになった。
論文 参考訳(メタデータ) (2024-11-04T17:36:40Z) - From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [5.910272203315325]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。
MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。
これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文 参考訳(メタデータ) (2024-10-02T03:57:21Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - BugsInPy: A Database of Existing Bugs in Python Programs to Enable
Controlled Testing and Debugging Studies [8.746971239693066]
初めて、PythonはStack Overflow開発者調査でJavaを上回った。
これは、Javaのテストツールやデバッグツールが豊富にあるのとは対照的である。
このプロジェクトでは、17の現実のPythonプログラムから493の実際のバグを含むベンチマークデータベースとツールを作成します。
論文 参考訳(メタデータ) (2024-01-27T19:07:34Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。
AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。
この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2023-06-03T03:03:52Z) - A Practical Toolkit for Multilingual Question and Answer Generation [79.31199020420827]
我々は,マルチ言語QAGのオンラインサービスであるAutoQGと,モデル微調整,生成,評価のためのオールインワンPythonパッケージであるlmqgを紹介した。
また、事前訓練されたエンコーダ-デコーダ言語モデルのいくつかの変種を微調整した8言語でQAGモデルをリリースしています。
論文 参考訳(メタデータ) (2023-05-27T08:42:37Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。