論文の概要: ChatGPT and Human Synergy in Black-Box Testing: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2401.13924v1
- Date: Thu, 25 Jan 2024 03:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:45:57.676792
- Title: ChatGPT and Human Synergy in Black-Box Testing: A Comparative Analysis
- Title(参考訳): ブラックボックステストにおけるチャットGPTとヒューマンシナジー : 比較分析
- Authors: Hiroyuki Kirinuki, Haruto Tanno
- Abstract要約: ChatGPTは、一般的にヒトの参加者が作り出したものと一致するか、わずかに上回るテストケースを生成することができる。
ChatGPTが人間と協力すると、それぞれが単独で達成できるものよりも、はるかに多くのテスト視点をカバーできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs), such as ChatGPT, have been
pivotal in advancing various artificial intelligence applications, including
natural language processing and software engineering. A promising yet
underexplored area is utilizing LLMs in software testing, particularly in
black-box testing. This paper explores the test cases devised by ChatGPT in
comparison to those created by human participants. In this study, ChatGPT
(GPT-4) and four participants each created black-box test cases for three
applications based on specifications written by the authors. The goal was to
evaluate the real-world applicability of the proposed test cases, identify
potential shortcomings, and comprehend how ChatGPT could enhance human testing
strategies. ChatGPT can generate test cases that generally match or slightly
surpass those created by human participants in terms of test viewpoint
coverage. Additionally, our experiments demonstrated that when ChatGPT
cooperates with humans, it can cover considerably more test viewpoints than
each can achieve alone, suggesting that collaboration between humans and
ChatGPT may be more effective than human pairs working together. Nevertheless,
we noticed that the test cases generated by ChatGPT have certain issues that
require addressing before use.
- Abstract(参考訳): 近年、チャットgptのような大規模言語モデル(llm)は、自然言語処理やソフトウェア工学を含む様々な人工知能アプリケーションの発展に重要な役割を果たしている。
有望だが未調査の領域は、ソフトウェアテスト、特にブラックボックステストでLLMを利用することである。
本稿では、ChatGPTが考案したテストケースを、ヒトの参加者によるテストケースと比較した。
本研究では,チャットgpt (gpt-4) と4名の参加者が,著者の仕様に基づく3つのアプリケーションのブラックボックステストケースを作成した。
目標は、提案するテストケースの実際の適用可能性を評価し、潜在的な欠点を特定し、chatgptが人間のテスト戦略をどのように強化できるかを理解することである。
ChatGPTは、テスト視点のカバレッジの観点から、一般的に人間の参加者が作成したケースと一致するか、少し上回るテストケースを生成することができる。
さらに、ChatGPTが人間と協力すると、それぞれが単独で達成できるテスト視点よりもはるかに多くのテスト視点をカバーでき、人間とChatGPTの協調が人間との共同作業よりも効果的である可能性が示唆された。
それでも、ChatGPTが生成したテストケースには、使用前に対処する必要のある問題があることに気づきました。
関連論文リスト
- Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Inappropriate Benefits and Identification of ChatGPT Misuse in
Programming Tests: A Controlled Experiment [0.0]
学生はChatGPTにプログラミングタスクを完了させ、ソースの適切な認識なしに他人の作業からソリューションを生成することができる。
完了時間とプログラミング性能の観点から,ChatGPTを用いた不適切なメリットを測定するための制御実験を行った。
論文 参考訳(メタデータ) (2023-08-11T06:42:29Z) - ChatGPT: A Study on its Utility for Ubiquitous Software Engineering
Tasks [2.084078990567849]
ChatGPT (Chat Generative Pre-trained Transformer) - OpenAIが2022年11月30日に立ち上げた。
本研究では,ChatGPTが一般的なソフトウェアエンジニアリングタスクにどのように役立つかを検討する。
論文 参考訳(メタデータ) (2023-05-26T11:29:06Z) - No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test Generation [11.009117714870527]
単体テストは、機能的に分離されたプログラムユニットのバグを検出するのに不可欠である。
最近の研究は、ユニットテスト生成における大きな言語モデル(LLM)の可能性を示している。
ChatGPTがユニット・テスト・ジェネレーションでどの程度有効かは不明だ。
論文 参考訳(メタデータ) (2023-05-07T07:17:08Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation,
and Detection [8.107721810172112]
ChatGPTは、幅広い人間の質問に効果的に反応できる。
人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。
本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
論文 参考訳(メタデータ) (2023-01-18T15:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。