論文の概要: Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency
in coding algorithms and data structures
- arxiv url: http://arxiv.org/abs/2307.05360v2
- Date: Sun, 16 Jul 2023 04:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 19:35:15.187974
- Title: Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency
in coding algorithms and data structures
- Title(参考訳): 巨人を解き放つ:コーディングアルゴリズムとデータ構造におけるChatGPTの習熟度に関する包括的評価
- Authors: Sayed Erfan Arefin, Tasnia Ashrafi Heya, Hasan Al-Qudah, Ynes Ineza,
Abdul Serwadda
- Abstract要約: 本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformative influence of Large Language Models (LLMs) is profoundly
reshaping the Artificial Intelligence (AI) technology domain. Notably, ChatGPT
distinguishes itself within these models, demonstrating remarkable performance
in multi-turn conversations and exhibiting code proficiency across an array of
languages. In this paper, we carry out a comprehensive evaluation of ChatGPT's
coding capabilities based on what is to date the largest catalog of coding
challenges. Our focus is on the python programming language and problems
centered on data structures and algorithms, two topics at the very foundations
of Computer Science. We evaluate ChatGPT for its ability to generate correct
solutions to the problems fed to it, its code quality, and nature of run-time
errors thrown by its code. Where ChatGPT code successfully executes, but fails
to solve the problem at hand, we look into patterns in the test cases passed in
order to gain some insights into how wrong ChatGPT code is in these kinds of
situations. To infer whether ChatGPT might have directly memorized some of the
data that was used to train it, we methodically design an experiment to
investigate this phenomena. Making comparisons with human performance whenever
feasible, we investigate all the above questions from the context of both its
underlying learning models (GPT-3.5 and GPT-4), on a vast array sub-topics
within the main topics, and on problems having varying degrees of difficulty.
- Abstract(参考訳): 大規模言語モデル(LLM)の変革的影響は、人工知能(AI)技術領域を根本的に変えている。
特にChatGPTは、これらのモデル内で自分自身を区別し、マルチターン会話において顕著なパフォーマンスを示し、さまざまな言語でコード習熟度を示す。
本稿では,過去最大のコーディング課題のカタログに基づいて,chatgptのコーディング能力の包括的評価を行う。
我々の焦点はピソンプログラミング言語とデータ構造とアルゴリズムを中心とした問題であり、コンピュータ科学の根底にある2つのトピックである。
chatgptは、その問題に対する正しい解決策を生成する能力、コード品質、コードによって投げられるランタイムエラーの性質を評価します。
ChatGPTコードが正常に実行されるが、その問題の解決に失敗した場合、我々は、ChatGPTコードがこの種の状況でどのように間違っているかを知るために、通過したテストケースのパターンを調べる。
ChatGPTがトレーニングに使われたデータのいくつかを直接記憶したかどうかを推測するため、我々はこの現象を調査するための実験を体系的に設計した。
人間のパフォーマンスを常に比較し、基礎となる学習モデル(gpt-3.5とgpt-4)の文脈、メイントピック内の膨大な配列のサブトピック、難易度が異なる問題などから、上記の全ての質問を考察する。
関連論文リスト
- Benchmarking ChatGPT on Algorithmic Reasoning [58.50071292008407]
GNN向けに設計されたCLRSベンチマークスイートからChatGPTのアルゴリズム問題を解く能力を評価する。
ChatGPTは、Pythonを使ってこれらの問題を解決することで、専門家のGNNモデルより優れています。
論文 参考訳(メタデータ) (2024-04-04T13:39:06Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Refining ChatGPT-Generated Code: Characterizing and Mitigating Code
Quality Issues [17.7880460531813]
我々は2つの人気のあるプログラミング言語で実装された4,066個のChatGPT生成コードの品質を体系的に研究した。
本稿では,ChatGPT生成コードの品質に関する潜在的な問題を同定し,特徴付ける。
ChatGPTはこれらの課題に部分的に対処でき、コード品質を20%以上改善していますが、まだ改善の余地と機会があります。
論文 参考訳(メタデータ) (2023-07-24T08:14:22Z) - Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。
本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。
この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文 参考訳(メタデータ) (2023-07-17T06:06:58Z) - Automatic Code Summarization via ChatGPT: How Far Are We? [10.692654700225411]
CSN-Pythonと呼ばれる広く使われているPythonデータセット上でChatGPTを評価する。
BLEUとROUGE-Lでは、ChatGPTのコード要約性能は3つのSOTAモデルと比べて著しく劣っている。
この結果に基づき、ChatGPTベースのコード要約におけるいくつかのオープンな課題と機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T09:43:40Z) - Is ChatGPT the Ultimate Programming Assistant -- How far is it? [11.943927095071105]
ChatGPTは非常に注目されており、ソースコードを議論するためのボットとして使用できる。
完全自動プログラミングアシスタントとしてのChatGPTの可能性について実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-24T09:20:13Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。