論文の概要: Why you shouldn't fully trust ChatGPT: A synthesis of this AI tool's error rates across disciplines and the software engineering lifecycle
- arxiv url: http://arxiv.org/abs/2504.18858v1
- Date: Sat, 26 Apr 2025 08:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.02189
- Title: Why you shouldn't fully trust ChatGPT: A synthesis of this AI tool's error rates across disciplines and the software engineering lifecycle
- Title(参考訳): なぜChatGPTを完全に信頼すべきでないのか: このAIツールの、規律とソフトウェアエンジニアリングライフサイクルにまたがるエラー率の合成
- Authors: Vahid Garousi,
- Abstract要約: ChatGPTや他の大規模言語モデル(LLM)は、医療、ビジネス、経済、工学、ソフトウェア工学(SE)で広く使われている。
その人気にもかかわらず、信頼性、特にドメイン間のエラー率とソフトウェア開発ライフサイクル(SDLC)に関する懸念が続いている。
本研究は,ChatGPTが報告した誤り率とSDLC相に整合したSEタスクを合成し,定量化する。
- 参考スコア(独自算出の注目度): 1.7912507269030578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: ChatGPT and other large language models (LLMs) are widely used across healthcare, business, economics, engineering, and software engineering (SE). Despite their popularity, concerns persist about their reliability, especially their error rates across domains and the software development lifecycle (SDLC). Objective: This study synthesizes and quantifies ChatGPT's reported error rates across major domains and SE tasks aligned with SDLC phases. It provides an evidence-based view of where ChatGPT excels, where it fails, and how reliability varies by task, domain, and model version (GPT-3.5, GPT-4, GPT-4-turbo, GPT-4o). Method: A Multivocal Literature Review (MLR) was conducted, gathering data from academic studies, reports, benchmarks, and grey literature up to 2025. Factual, reasoning, coding, and interpretive errors were considered. Data were grouped by domain and SE phase and visualized using boxplots to show error distributions. Results: Error rates vary across domains and versions. In healthcare, rates ranged from 8% to 83%. Business and economics saw error rates drop from ~50% with GPT-3.5 to 15-20% with GPT-4. Engineering tasks averaged 20-30%. Programming success reached 87.5%, though complex debugging still showed over 50% errors. In SE, requirements and design phases showed lower error rates (~5-20%), while coding, testing, and maintenance phases had higher variability (10-50%). Upgrades from GPT-3.5 to GPT-4 improved reliability. Conclusion: Despite improvements, ChatGPT still exhibits non-negligible error rates varying by domain, task, and SDLC phase. Full reliance without human oversight remains risky, especially in critical settings. Continuous evaluation and critical validation are essential to ensure reliability and trustworthiness.
- Abstract(参考訳): コンテキスト: ChatGPTや他の大規模言語モデル(LLM)は、医療、ビジネス、経済学、工学、ソフトウェア工学(SE)で広く使われている。
その人気にもかかわらず、信頼性、特にドメイン間のエラー率とソフトウェア開発ライフサイクル(SDLC)に関する懸念が続いている。
目的: 本研究は,ChatGPTが報告した主要なドメインとSDLC位相に整合したSEタスク間でのエラー率を合成し,定量化する。
これはChatGPTがどの場所、どこで失敗したか、信頼性がタスク、ドメイン、モデルバージョン(GPT-3.5、GPT-4、GPT-4-turbo、GPT-4o)によってどのように変化するかを示すエビデンスベースのビューを提供する。
Method: A Multivocal Literature Review (MLR) が実施され、学術研究、レポート、ベンチマーク、グレー文学のデータを2025年まで収集した。
現実的、推論的、コーディング的、解釈的エラーが考慮された。
データはドメインとSEフェーズでグループ化され、エラー分布を示すためにボックスプロットを使用して視覚化された。
結果: エラー率はドメインやバージョンによって異なります。
医療では8%から83%であった。
ビジネスと経済のエラー率は、GPT-3.5で50%から、GPT-4で15-20%に低下した。
エンジニアリングの作業は平均20~30%だった。
プログラミングの成功率は87.5%に達したが、複雑なデバッグは50%以上のエラーを示した。
SEでは、要件と設計フェーズはエラー率(約5~20%)が低く、一方、コーディング、テスト、メンテナンスフェーズは変動率(10~50%)が高かった。
GPT-3.5からGPT-4へのアップグレードにより信頼性が向上した。
結論: 改善にもかかわらず、ChatGPTはドメイン、タスク、SDLCフェーズによって異なる非無視エラー率を示す。
人間の監視のない完全信頼は、特にクリティカルな環境では、依然として危険である。
信頼性と信頼性を確保するためには、継続的な評価と重要な検証が不可欠です。
関連論文リスト
- Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems [2.4241401076864]
HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。
モデル一貫性を32ラン(k = 32)と中央標準偏差で評価する。
上位3モデル(o1、o1-preview、Claude-3.5-Sonnet-1022)は75%のスコアを記録した。
論文 参考訳(メタデータ) (2025-01-31T23:47:02Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - ChatGPT for Vulnerability Detection, Classification, and Repair: How Far
Are We? [24.61869093475626]
ChatGPTのような大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な進歩を見せた。
ソフトウェア脆弱性のために設計された最先端言語モデルとChatGPTを比較した。
ChatGPTは限られたパフォーマンスを実現し、脆弱性コンテキストにおける他の言語モデルよりも大幅に遅れていることがわかった。
論文 参考訳(メタデータ) (2023-10-15T12:01:35Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - SciFix: Outperforming GPT3 on Scientific Factual Error Correction [9.850216012914684]
SciFixは検証を必要としない科学的クレーム補正システムであり、既存の手法をかなりの差で上回ることができる。
本手法は,学習中にLLMを使ってリッチな注釈付きデータセットを作成することができる。
論文 参考訳(メタデータ) (2023-05-24T04:24:16Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。