論文の概要: Nuances are the Key: Unlocking ChatGPT to Find Failure-Inducing Tests
with Differential Prompting
- arxiv url: http://arxiv.org/abs/2304.11686v6
- Date: Sat, 9 Sep 2023 09:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:36:08.858279
- Title: Nuances are the Key: Unlocking ChatGPT to Find Failure-Inducing Tests
with Differential Prompting
- Title(参考訳): Nuancesが鍵:ChatGPTをアンロックして、差分プロンプトによるエラー誘発テストを見つける
- Authors: Tsz-On Li, Wenxi Zong, Yibo Wang, Haoye Tian, Ying Wang, Shing-Chi
Cheung, Jeff Kramer
- Abstract要約: ChatGPTは、バグギープログラムの正しい障害誘発テストケースを見つける確率が低い(28.8%)。
考えられる理由は、失敗を誘発するテストケースを見つけるには、バグのあるプログラムとその正しいバージョンの間の微妙なコードの違いを分析する必要があるからです。
本稿では,ChatGPTと差分テストを組み合わせた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 20.914970341922707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically detecting software failures is an important task and a
longstanding challenge. It requires finding failure-inducing test cases whose
test input can trigger the software's fault, and constructing an automated
oracle to detect the software's incorrect behaviors. Recent advancement of
large language models (LLMs) motivates us to study how far this challenge can
be addressed by ChatGPT, a state-of-the-art LLM. Unfortunately, our study shows
that ChatGPT has a low probability (28.8%) of finding correct failure-inducing
test cases for buggy programs. A possible reason is that finding
failure-inducing test cases requires analyzing the subtle code differences
between a buggy program and its correct version. When these two versions have
similar syntax, ChatGPT is weak at recognizing subtle code differences. Our
insight is that ChatGPT's performance can be substantially enhanced when
ChatGPT is guided to focus on the subtle code difference. We have an
interesting observation that ChatGPT is effective in inferring the intended
behaviors of a buggy program. The intended behavior can be leveraged to
synthesize programs, in order to make the subtle code difference between a
buggy program and its correct version (i.e., the synthesized program) explicit.
Driven by this observation, we propose a novel approach that synergistically
combines ChatGPT and differential testing to find failure-inducing test cases.
We evaluate our approach on Quixbugs (a benchmark of buggy programs), and
compare it with state-of-the-art baselines, including direct use of ChatGPT and
Pynguin. The experimental result shows that our approach has a much higher
probability (77.8%) of finding correct failure-inducing test cases, 2.7X as the
best baseline.
- Abstract(参考訳): ソフトウェア障害の自動検出は重要なタスクであり、長年の課題である。
テスト入力がソフトウェアの障害を引き起こす可能性のある障害誘発テストケースを見つけ、ソフトウェアの誤った振る舞いを検出する自動化されたオラクルを構築する必要がある。
近年の大規模言語モデル(LLM)の進歩は、最先端のLLMであるChatGPTによって、この課題がどこまで解決できるかを研究する動機となっている。
残念ながら、chatgptはバギープログラムの正しい障害誘発テストケースを見つける確率が低い(28.8%)ことが分かりました。
考えられる理由は、失敗を引き起こすテストケースを見つけるには、バグのあるプログラムとその正しいバージョンの間の微妙なコードの違いを分析する必要があるからです。
これら2つのバージョンに類似した構文がある場合、ChatGPTは微妙なコードの違いを認識するのに弱い。
私たちの考えでは、ChatGPTのパフォーマンスは、微妙なコード差にフォーカスするためにChatGPTがガイドされたときに大幅に向上できる。
我々はChatGPTがバグギープログラムの意図した振る舞いを推測するのに有効であることを示す興味深い観察を行った。
意図された動作はプログラムを合成するために利用することができ、バギープログラムとその正しいバージョン(すなわち、合成されたプログラム)との微妙なコード差を明確化することができる。
そこで本研究では,chatgptとディファレンシャルテストを組み合わせた新しいテスト手法を提案する。
我々はQuixbugs(バグ修正プログラムのベンチマーク)に対する我々のアプローチを評価し、ChatGPTとPynguinの直接使用を含む最先端のベースラインと比較した。
実験結果から,本手法は正しい障害誘発試験事例が見つかる確率が77.8%,最良のベースラインが2.7Xであることが示唆された。
関連論文リスト
- Evaluating ChatGPT-3.5 Efficiency in Solving Coding Problems of Different Complexity Levels: An Empirical Analysis [6.123324869194196]
我々はLeetCode上でChatGPTのGPT-3.5-turboモデルの性能を評価する。
ChatGPTは困難が増すにつれて少ない問題を解く。
次に、プロンプトエンジニアリングによりChatGPTの性能が向上する。
第3に、Python、Java、C++といった一般的な言語では、Elixir、Erlang、Racketといったあまり一般的でない言語よりも、ChatGPTの方がパフォーマンスがよい。
論文 参考訳(メタデータ) (2024-11-12T04:01:09Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair [19.123640635549524]
大規模言語モデル(LLM)が注目され、様々なソフトウェアエンジニアリングタスクで有望なパフォーマンスを示した。
本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで概説する。
ChatGPTは、35ラウンド以内の基本的なプロンプトを使用して151のバグギープログラムのうち109を修正でき、最先端のLLM CodeT5とPLBARTを27.5%、予測精度62.4%で上回っている。
論文 参考訳(メタデータ) (2023-10-13T06:11:47Z) - Exploring the Potential of ChatGPT in Automated Code Refinement: An
Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。
コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。
その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文 参考訳(メタデータ) (2023-09-15T07:41:33Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures [0.6990493129893112]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。