論文の概要: Is this Snippet Written by ChatGPT? An Empirical Study with a
CodeBERT-Based Classifier
- arxiv url: http://arxiv.org/abs/2307.09381v2
- Date: Mon, 7 Aug 2023 07:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 17:02:08.858060
- Title: Is this Snippet Written by ChatGPT? An Empirical Study with a
CodeBERT-Based Classifier
- Title(参考訳): このスニペットはChatGPTで書かれているか?
CodeBERTに基づく分類器を用いた実証的研究
- Authors: Phuong T. Nguyen, Juri Di Rocco, Claudio Di Sipio, Riccardo Rubei,
Davide Di Ruscio, Massimiliano Di Penta
- Abstract要約: 本稿では,AI生成コードスニペットの自動識別の実現可能性について検討する。
我々は、CodeBERT上に構築されたGPTSnifferと呼ばれる新しいアプローチを提案し、AIによって書かれたソースコードを検出する。
その結果、GPTSnifferは、コードが人間書きなのかAI生成なのかを正確に分類でき、2つのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 13.613735709997911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since its launch in November 2022, ChatGPT has gained popularity among users,
especially programmers who use it as a tool to solve development problems.
However, while offering a practical solution to programming problems, ChatGPT
should be mainly used as a supporting tool (e.g., in software education) rather
than as a replacement for the human being. Thus, detecting automatically
generated source code by ChatGPT is necessary, and tools for identifying
AI-generated content may need to be adapted to work effectively with source
code. This paper presents an empirical study to investigate the feasibility of
automated identification of AI-generated code snippets, and the factors that
influence this ability. To this end, we propose a novel approach called
GPTSniffer, which builds on top of CodeBERT to detect source code written by
AI. The results show that GPTSniffer can accurately classify whether code is
human-written or AI-generated, and outperforms two baselines, GPTZero and
OpenAI Text Classifier. Also, the study shows how similar training data or a
classification context with paired snippets helps to boost classification
performances.
- Abstract(参考訳): 2022年11月のローンチ以来、ChatGPTは、特に開発問題を解決するツールとしてChatGPTを使用しているプログラマの間で人気を集めている。
しかし、プログラミング問題に対する実用的な解決策を提供する一方で、ChatGPTは人間の代わりにではなく、主にサポートツール(例えば、ソフトウェア教育)として使われるべきである。
したがって、ChatGPTによる自動生成ソースコードの検出が必要であり、AI生成コンテンツを特定するツールをソースコードと効率的に連携させる必要がある。
本稿では,AI生成コードスニペットの自動識別の実現可能性と,その機能に影響を与える要因について検討する。
そこで我々は,CodeBERT上に構築されたGPTSnifferという新しいアプローチを提案し,AIで書かれたソースコードを検出する。
その結果、GPTSnifferは、コードが人間書きかAI生成かを正確に分類でき、GPTZeroとOpenAI Text Classifierの2つのベースラインを上回ります。
また、類似したトレーニングデータやペアスニペットによる分類コンテキストが、分類のパフォーマンス向上にどのように役立つかを示す。
関連論文リスト
- You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search [47.54163552754051]
コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。
近年,大規模言語モデル (LLM) は自然言語の理解と生成において顕著な進歩を遂げている。
本稿では,大規模言語モデルによって生成された高品質で多様な拡張データを利用する新しいアプローチChatDANCEを提案する。
論文 参考訳(メタデータ) (2024-08-10T12:51:21Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models [54.58108387797138]
コードインテリジェンスタスクにおける即時学習の有効性について検討する。
既存の自動プロンプト設計手法は、コードインテリジェンスタスクに限られている。
本稿では、精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。
論文 参考訳(メタデータ) (2024-03-20T13:37:00Z) - Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - Investigating the Utility of ChatGPT in the Issue Tracking System: An
Exploratory Study [5.176434782905268]
本研究は,ChatGPTと開発者間の相互作用を分析し,それらの活動を分析し,解決するものである。
私たちの調査によると、開発者は主にブレインストーミングソリューションにChatGPTを使用しているが、しばしばChatGPT生成コードを使う代わりにコードを書くことを選ぶ。
論文 参考訳(メタデータ) (2024-02-06T06:03:05Z) - Fighting Fire with Fire: Can ChatGPT Detect AI-generated Text? [20.37071875344405]
人間の書き起こし対AI生成テキスト検出におけるChatGPTのゼロショット性能を評価する。
我々は,ChatGPTがAI生成テキストや人文テキストの検出に対称的に有効であるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2023-08-02T17:11:37Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures [0.6990493129893112]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z) - How Generative AI models such as ChatGPT can be (Mis)Used in SPC
Practice, Education, and Research? An Exploratory Study [2.0841728192954663]
生成人工知能(AI)モデルは、統計的プロセス制御(SPC)の実践、学習、研究に革命をもたらす可能性がある。
これらのツールは開発の初期段階にあり、簡単に誤用されるか、誤解される可能性がある。
コードを提供し、基本的な概念を説明し、SPCの実践、学習、研究に関する知識を創造するChatGPTの能力を探求する。
論文 参考訳(メタデータ) (2023-02-17T15:48:37Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。