Fugu-MT 論文翻訳(概要): ChatDBG: An AI-Powered Debugging Assistant

論文の概要: ChatDBG: An AI-Powered Debugging Assistant

arxiv url: http://arxiv.org/abs/2403.16354v2
Date: Tue, 24 Sep 2024 15:07:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:48:22.237751
Title: ChatDBG: An AI-Powered Debugging Assistant
Title（参考訳）: ChatDBG: AIによるデバッグアシスタント
Authors: Kyla Levin, Nicolas van Kempen, Emery D. Berger, Stephen N. Freund,
Abstract要約: ChatDBGはプログラマがデバッガとの共同対話を行うことを可能にする。クラッシュやアサーション障害の根本原因分析を行うことができる。 ChatDBGは急速に普及しており、すでに5万回ダウンロードされている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Debugging is a critical but challenging task for programmers. This paper proposes ChatDBG, an AI-powered debugging assistant. ChatDBG integrates large language models (LLMs) to significantly enhance the capabilities and user-friendliness of conventional debuggers. ChatDBG lets programmers engage in a collaborative dialogue with the debugger, allowing them to pose complex questions about program state, perform root cause analysis for crashes or assertion failures, and explore open-ended queries like `why is x null?'. To handle these queries, ChatDBG grants the LLM autonomy to "take the wheel": it can act as an independent agent capable of querying and controlling the debugger to navigate through stacks and inspect program state. It then reports its findings and yields back control to the programmer. Our ChatDBG prototype integrates with standard debuggers including LLDB and GDB for native code and Pdb for Python. Our evaluation across a diverse set of code, including C/C++ code with known bugs and a suite of Python code including standalone scripts and Jupyter notebooks, demonstrates that ChatDBG can successfully analyze root causes, explain bugs, and generate accurate fixes for a wide range of real-world errors. For the Python programs, a single query led to an actionable bug fix 67% of the time; one additional follow-up query increased the success rate to 85%. ChatDBG has seen rapid uptake; it has already been downloaded roughly 50,000 times.
Abstract（参考訳）: デバッグはプログラマにとって重要なタスクですが、難しい作業です。本稿では,AIを利用したデバッグアシスタントChatDBGを提案する。 ChatDBGは、大型言語モデル(LLM)を統合し、従来のデバッガの機能とユーザフレンドリ性を著しく強化する。 ChatDBGは、プログラマがデバッガとの共同対話を行い、プログラム状態に関する複雑な質問をすることで、クラッシュやアサーション障害の根本原因分析を実行し、‘なぜx nullなのか’のようなオープンなクエリを探索することを可能にする。これらのクエリを処理するために、ChatDBGはLLMの自律性に"車輪を取る"ことを許可している。その後、その発見を報告し、プログラマに制御を返す。当社のChatDBGプロトタイプは,ネイティブコード用のLLDBやGDB,Python用のPdbなど,標準的なデバッガと統合しています。既知のバグのあるC/C++コードやスタンドアロンのスクリプトやJupyterノートブックを含むPythonコードのスイートなど、さまざまなコードに対する評価は、ChatDBGがルート原因を分析し、バグを説明し、広範囲の現実世界のエラーに対する正確な修正を生成することを実証しています。 Pythonプログラムでは、ひとつのクエリが67%の動作可能なバグ修正につながった。 ChatDBGは急速に普及しており、すでに5万回ダウンロードされている。

関連論文リスト

Poster: libdebug, Build Your Own Debugger for a Better (Hello) World [0.6990493129893112]
libは、ユーザランドバイナリ実行ファイルのプログラムによるデバッグのためのPythonライブラリである。オープンソースプロジェクトとしてリリースされ、コミュニティ全体での使用とコラボレーションを促進する包括的なドキュメントが提供されている。 syscall と lib のブレークポイント処理の中央値のレイテンシは GDB よりも 3 倍から 4 倍低いことがわかった。
論文参考訳（メタデータ） (2025-06-03T09:14:57Z)
NL-Debugging: Exploiting Natural Language as an Intermediate Representation for Code Debugging [68.42255321759062]
大規模言語モデル(LLM)の最近の進歩は、コード関連タスクを強化するために自然言語推論を活用することに注意を向けている。本稿では,自然言語を中間表現として用い,コード改善のための新しいフレームワークであるNL-GINGを紹介する。
論文参考訳（メタデータ） (2025-05-21T10:38:50Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Constant Optimization Driven Database System Testing [6.246028398098516]
ロジックバグ(Logic bugs)とは、データベース管理システム(DBMS)が、与えられたクエリに対する誤った結果を静かに生成する可能性があるバグである。我々は,データベースの論理バグを検出する新しいアプローチとして,定数最適化駆動型データベーステスト(CODDTest)を提案する。
論文参考訳（メタデータ） (2025-01-20T03:32:55Z)
MdEval: Massively Multilingual Code Debugging [37.48700033342978]
18のプログラミング言語の3.6Kテストサンプルを含む,最初の大規模多言語デバッグベンチマークを提案する。本稿では, MDEVAL-INSTRUCT 命令コーパスを導入し, 正しい多言語クエリとソリューションにバグを注入する。 MDEVALにおける実験により,オープンソースモデルとクローズドソースLLM間の顕著な性能差が明らかになった。
論文参考訳（メタデータ） (2024-11-04T17:36:40Z)
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [5.910272203315325]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。 MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文参考訳（メタデータ） (2024-10-02T03:57:21Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
BugsInPy: A Database of Existing Bugs in Python Programs to Enable Controlled Testing and Debugging Studies [8.746971239693066]
初めて、PythonはStack Overflow開発者調査でJavaを上回った。これは、Javaのテストツールやデバッグツールが豊富にあるのとは対照的である。このプロジェクトでは、17の現実のPythonプログラムから493の実際のバグを含むベンチマークデータベースとツールを作成します。
論文参考訳（メタデータ） (2024-01-27T19:07:34Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文参考訳（メタデータ） (2023-11-11T11:01:13Z)
Prompting Is All You Need: Automated Android Bug Replay with Large Language Models [28.69675481931385]
本稿では,バグ報告から迅速なエンジニアリングを通じてバグを自動的に再現する,新しい軽量なアプローチであるAdbGPTを提案する。 AdbGPTは、LLMから人間の知識と論理的推論を引き出すために、少数ショットの学習と連鎖推論を活用する。この評価は,253.6秒で81.3%のバグレポートを再現するAdbGPTの有効性と有効性を示すものである。
論文参考訳（メタデータ） (2023-06-03T03:03:52Z)
A Practical Toolkit for Multilingual Question and Answer Generation [79.31199020420827]
我々は,マルチ言語QAGのオンラインサービスであるAutoQGと,モデル微調整,生成,評価のためのオールインワンPythonパッケージであるlmqgを紹介した。また、事前訓練されたエンコーダ-デコーダ言語モデルのいくつかの変種を微調整した8言語でQAGモデルをリリースしています。
論文参考訳（メタデータ） (2023-05-27T08:42:37Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。 ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文参考訳（メタデータ） (2023-02-08T12:35:34Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。