論文の概要: Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack
Overflow Answers to Software Engineering Questions
- arxiv url: http://arxiv.org/abs/2308.02312v1
- Date: Fri, 4 Aug 2023 13:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 12:50:46.611357
- Title: Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack
Overflow Answers to Software Engineering Questions
- Title(参考訳): 誰の回答がよいのか?
ソフトウェア工学の質問に対するChatGPTとStack Overflowの回答の深さ分析
- Authors: Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang
- Abstract要約: ChatGPTの人気にもかかわらず、ChatGPTのソフトウェア工学的質問に対する回答の特徴を評価するための総合的な研究は行われていない。
517 Stack Overflow (SO) 質問に対する ChatGPT の回答の詳細な分析を行い,ChatGPT の回答の正確性,一貫性,包括性,簡潔性について検討した。
分析の結果,ChatGPT回答の52%が誤りであり,77%が動詞であることがわかった。しかしながら,ChatGPT回答は包括性や良質さから,それでも39.34%の回答が好まれている。
- 参考スコア(独自算出の注目度): 5.460468044619896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q&A platforms have been an integral part of the web-help-seeking behavior of
programmers over the past decade. However, with the recent introduction of
ChatGPT, the paradigm of web-help-seeking behavior is experiencing a shift.
Despite the popularity of ChatGPT, no comprehensive study has been conducted to
evaluate the characteristics or usability of ChatGPT's answers to software
engineering questions. To bridge the gap, we conducted the first in-depth
analysis of ChatGPT's answers to 517 Stack Overflow (SO) questions and examined
the correctness, consistency, comprehensiveness, and conciseness of ChatGPT's
answers. Furthermore, we conducted a large-scale linguistic analysis, and a
user study to understand the characteristics of ChatGPT answers from linguistic
and human aspects. Our analysis shows that 52\% of ChatGPT answers are
incorrect and 77\% are verbose. Nonetheless, ChatGPT answers are still
preferred 39.34\% of the time due to their comprehensiveness and
well-articulated language style. Our result implies the necessity of close
examination and rectification of errors in ChatGPT, at the same time creating
awareness among its users of the risks associated with seemingly correct
ChatGPT answers.
- Abstract(参考訳): Q&Aプラットフォームは、過去10年間のプログラマのWebヘルプ検索行動に不可欠な部分です。
しかし、最近のChatGPTの導入により、ウェブヘルプ検索行動のパラダイムが変化している。
ChatGPTの人気にもかかわらず、ChatGPTのソフトウェア工学的質問に対する回答の特徴やユーザビリティを評価するための総合的な研究は行われていない。
ギャップを埋めるため,517 Stack Overflow (SO)質問に対するChatGPTの回答の詳細な分析を行い,ChatGPTの回答の正確性,一貫性,包括性,簡潔性を検討した。
さらに, 大規模言語分析を行い, 言語的・人間的側面からchatgpt回答の特徴を理解するためのユーザ調査を行った。
分析の結果,ChatGPT回答の52\%は誤りであり,77\%は冗長であることがわかった。
それにもかかわらず、ChatGPTの回答は、その包括性と十分な言語スタイルのために、まだ39.34 %の時間を好む。
以上の結果から,ChatGPTにおける誤りの綿密な検証と修正の必要性が示唆された。
関連論文リスト
- An exploratory analysis of Community-based Question-Answering Platforms and GPT-3-driven Generative AI: Is it the end of online community-based learning? [0.6749750044497732]
ChatGPTは、Stack Overflowのようなコミュニティの質問に答えるプラットフォームに対して、ソフトウェアエンジニアにインタラクティブな代替手段を提供する。
私たちは、2022年1月から2022年12月までに質問されたStackOverflowから、2564のPythonとJavaScriptの質問を分析しました。
分析の結果,ChatGPTの回答は66%短く,質問に対して35%の回答が得られた。
論文 参考訳(メタデータ) (2024-09-26T02:17:30Z) - A Study on the Vulnerability of Test Questions against ChatGPT-based
Cheating [14.113742357609285]
ChatGPTはテキストのプロンプトを正確に答えることができる。
多くの教育者は、彼らの持ち帰りテストや遠隔テストや試験がChatGPTベースの不正行為に弱いことを発見している。
論文 参考訳(メタデータ) (2024-02-21T23:51:06Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - An empirical study of ChatGPT-3.5 on question answering and code
maintenance [14.028497274245227]
ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-03T14:48:32Z) - Are We Ready to Embrace Generative AI for Software Q&A? [25.749110480727765]
世界最大のソフトウェアQ&A(SQA)WebサイトであるStack Overflowは、生成AI技術の出現により、トラフィックの大幅な減少に直面している。
ChatGPTは、Stack Overflowのリリースからわずか6日後に禁止される。
これを検証するために、我々は人書きとChatGPT生成の回答の比較評価を行った。
論文 参考訳(メタデータ) (2023-07-19T05:54:43Z) - Evaluating Privacy Questions From Stack Overflow: Can ChatGPT Compete? [1.231476564107544]
ChatGPTはコードの生成や開発者の質問に対する応答の代替手段として使用されている。
以上の結果から,プライバシ関連の質問の多くは,選択/同意,集約,識別に関連があることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T21:33:04Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models [49.52083248451775]
大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。
特にChatGPTは,広く利用されており,アクセスしやすいLLMである。
我々は、ChatGPTの常識能力を評価するために、11のデータセットで一連の実験を行った。
論文 参考訳(メタデータ) (2023-03-29T03:05:43Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。