論文の概要: An empirical study of ChatGPT-3.5 on question answering and code
maintenance
- arxiv url: http://arxiv.org/abs/2310.02104v1
- Date: Tue, 3 Oct 2023 14:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:08:58.348058
- Title: An empirical study of ChatGPT-3.5 on question answering and code
maintenance
- Title(参考訳): ChatGPT-3.5の質問応答とコードメンテナンスに関する実証的研究
- Authors: Md Mahir Asef Kabir, Sk Adnan Hassan, Xiaoyin Wang, Ying Wang, Hai Yu,
Na Meng
- Abstract要約: ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
- 参考スコア(独自算出の注目度): 14.028497274245227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ever since the launch of ChatGPT in 2022, a rising concern is whether ChatGPT
will replace programmers and kill jobs. Motivated by this widespread concern,
we conducted an empirical study to systematically compare ChatGPT against
programmers in question-answering and software-maintaining. We reused a dataset
introduced by prior work, which includes 130 StackOverflow (SO) discussion
threads referred to by the Java developers of 357 GitHub projects. We mainly
investigated three research questions (RQs). First, how does ChatGPT compare
with programmers when answering technical questions? Second, how do developers
perceive the differences between ChatGPT's answers and SO answers? Third, how
does ChatGPT compare with humans when revising code for maintenance requests?
For RQ1, we provided the 130 SO questions to ChatGPT, and manually compared
ChatGPT answers with the accepted/most popular SO answers in terms of
relevance, readability, informativeness, comprehensiveness, and reusability.
For RQ2, we conducted a user study with 30 developers, asking each developer to
assess and compare 10 pairs of answers, without knowing the information source
(i.e., ChatGPT or SO). For RQ3, we distilled 48 software maintenance tasks from
48 GitHub projects citing the studied SO threads. We queried ChatGPT to revise
a given Java file, and to incorporate the code implementation for any
prescribed maintenance requirement. Our study reveals interesting phenomena:
For the majority of SO questions (97/130), ChatGPT provided better answers; in
203 of 300 ratings, developers preferred ChatGPT answers to SO answers; ChatGPT
revised code correctly for 22 of the 48 tasks. Our research will expand
people's knowledge of ChatGPT capabilities, and shed light on future adoption
of ChatGPT by the software industry.
- Abstract(参考訳): 2022年にChatGPTがローンチされて以来、ChatGPTがプログラマを置き換わり、職を失うのではないかという懸念が高まっている。
そこで我々は,ChatGPTを質問応答やソフトウェア保守におけるプログラマと体系的に比較する実証的研究を行った。
357のgithubプロジェクトのjava開発者が参照する130のstackoverflow(so)ディスカッションスレッドを含む、事前作業で導入されたデータセットを再利用しました。
我々は主に3つの研究課題(rqs)を調査した。
まず、ChatGPTは技術的な疑問に答える際に、プログラマとどのように比較しますか?
次に、開発者はChatGPTの回答とSOの回答の違いをどう感じますか?
第3に、ChatGPTは、メンテナンス要求のコード修正時に人間とどのように比較しますか?
RQ1では、130のSO質問をChatGPTに提供し、ChatGPT回答と最も一般的なSO回答を関連性、可読性、情報性、包括性、再利用性の観点から手動で比較した。
RQ2では,30人の開発者を対象に,情報ソース(ChatGPTやSOなど)を知らずに,各開発者に対して10対の回答の評価と比較を依頼した。
rq3では、48のgithubプロジェクトから48のソフトウェアメンテナンスタスクを蒸留しました。
所定のJavaファイルを更新し、所定のメンテナンス要件を満たすコード実装を組み込むため、ChatGPTを問い合わせました。
調査の結果,多くのSO質問(97/130)に対して,ChatGPTはより良い回答を提供し,300のレーティングのうち203の開発者は,SO回答に対してChatGPTの回答を好んだ。
私たちの研究は、ChatGPTの機能に関する人々の知識を拡大し、ソフトウェア産業におけるChatGPTの今後の採用に光を当てます。
関連論文リスト
- An exploratory analysis of Community-based Question-Answering Platforms and GPT-3-driven Generative AI: Is it the end of online community-based learning? [0.6749750044497732]
ChatGPTは、Stack Overflowのようなコミュニティの質問に答えるプラットフォームに対して、ソフトウェアエンジニアにインタラクティブな代替手段を提供する。
私たちは、2022年1月から2022年12月までに質問されたStackOverflowから、2564のPythonとJavaScriptの質問を分析しました。
分析の結果,ChatGPTの回答は66%短く,質問に対して35%の回答が得られた。
論文 参考訳(メタデータ) (2024-09-26T02:17:30Z) - ChatGPT Incorrectness Detection in Software Reviews [0.38233569758620056]
そこで我々は,ChatGPT応答における誤りを自動的に検出するCID(ChatGPT Incorrectness Detector)というツールを開発した。
ライブラリ選択のベンチマーク研究において、CIDはF1スコア0.74~0.75でChatGPTからの誤った応答を検出できることを示した。
論文 参考訳(メタデータ) (2024-03-25T00:50:27Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - Is Stack Overflow Obsolete? An Empirical Study of the Characteristics of
ChatGPT Answers to Stack Overflow Questions [7.065853028825656]
Stack Overflowのプログラミング問題に対するChatGPT回答の詳細な分析を行った。
また,ChatGPT回答の正確性,一貫性,包括性,簡潔性を検討した。
分析の結果,ChatGPT回答の52%が誤り情報であり,77%が冗長であることがわかった。
論文 参考訳(メタデータ) (2023-08-04T13:23:20Z) - Evaluating Privacy Questions From Stack Overflow: Can ChatGPT Compete? [1.231476564107544]
ChatGPTはコードの生成や開発者の質問に対する応答の代替手段として使用されている。
以上の結果から,プライバシ関連の質問の多くは,選択/同意,集約,識別に関連があることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T21:33:04Z) - ChatGPT: A Study on its Utility for Ubiquitous Software Engineering
Tasks [2.084078990567849]
ChatGPT (Chat Generative Pre-trained Transformer) - OpenAIが2022年11月30日に立ち上げた。
本研究では,ChatGPTが一般的なソフトウェアエンジニアリングタスクにどのように役立つかを検討する。
論文 参考訳(メタデータ) (2023-05-26T11:29:06Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models [49.52083248451775]
大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
特にChatGPTは,広く利用されており,アクセスしやすいLLMである。
我々は、ChatGPTの常識能力を評価するために、11のデータセットで一連の実験を行った。
論文 参考訳(メタデータ) (2023-03-29T03:05:43Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。