論文の概要: Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems
- arxiv url: http://arxiv.org/abs/2403.04013v1
- Date: Wed, 6 Mar 2024 19:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:05:28.349886
- Title: Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems
- Title(参考訳): whodunit: 人間が書いたコードやgpt-4が生成したコードに分類する -- codechef問題に関するケーススタディ
- Authors: Oseremen Joy Idialu, Noble Saji Mathews, Rungroj Maipradit, Joanne M.
Atlee, Mei Nagappan
- Abstract要約: コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
- 参考スコア(独自算出の注目度): 0.13124513975412253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) assistants such as GitHub Copilot and ChatGPT,
built on large language models like GPT-4, are revolutionizing how programming
tasks are performed, raising questions about whether code is authored by
generative AI models. Such questions are of particular interest to educators,
who worry that these tools enable a new form of academic dishonesty, in which
students submit AI generated code as their own work. Our research explores the
viability of using code stylometry and machine learning to distinguish between
GPT-4 generated and human-authored code. Our dataset comprises human-authored
solutions from CodeChef and AI-authored solutions generated by GPT-4. Our
classifier outperforms baselines, with an F1-score and AUC-ROC score of 0.91. A
variant of our classifier that excludes gameable features (e.g., empty lines,
whitespace) still performs well with an F1-score and AUC-ROC score of 0.89. We
also evaluated our classifier with respect to the difficulty of the programming
problem and found that there was almost no difference between easier and
intermediate problems, and the classifier performed only slightly worse on
harder problems. Our study shows that code stylometry is a promising approach
for distinguishing between GPT-4 generated code and human-authored code.
- Abstract(参考訳): GPT-4のような大規模言語モデル上に構築されたGitHub CopilotやChatGPTといった人工知能(AI)アシスタントは、プログラミングタスクの実行方法に革命を起こし、生成AIモデルによってコードが認可されるかどうかに関する疑問を提起している。
このような質問は、教育者にとって特に関心があり、これらのツールが、学生がAI生成コードを自身の仕事として提出する、新しいタイプの学術的不正を可能にすることを心配している。
本研究は, GPT-4の生成したコードと人為的なコードとを区別するために, コードスタイメトリーと機械学習を用いることの可能性を検討する。
我々のデータセットは、CodeChefとGPT-4で生成されたAIによるソリューションからなる。
F1スコアとAUC-ROCスコアは0.91。
ゲーム可能な特徴(空行や空白など)を除外した分類器の変種は、f1-scoreとauc-rocスコア0.89で依然として良好である。
また,プログラムの難易度に関して,分類器の評価を行い,より容易な問題と中間的な問題にはほとんど差がないことを確認した。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models [54.58108387797138]
コードインテリジェンスタスクにおける即時学習の有効性について検討する。
既存の自動プロンプト設計手法は、コードインテリジェンスタスクに限られている。
本稿では、精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。
論文 参考訳(メタデータ) (2024-03-20T13:37:00Z) - Enhancing Programming Error Messages in Real Time with Generative AI [0.0]
自動評価ツールであるAtheneに送信されたすべてのプログラムに対して、ChatGPTからのフィードバックを実装します。
以上の結果から,自動評価ツールに生成AIを追加することが必ずしも改善するとは限らないことが示唆された。
論文 参考訳(メタデータ) (2024-02-12T21:32:05Z) - Assessing AI Detectors in Identifying AI-Generated Code: Implications
for Education [8.592066814291819]
本稿では,AIGC検出器による検出を回避しようとする試みについて,LLMを実証的に検討する。
これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。
以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。
論文 参考訳(メタデータ) (2024-01-08T05:53:52Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Is this Snippet Written by ChatGPT? An Empirical Study with a
CodeBERT-Based Classifier [13.613735709997911]
本稿では,AI生成コードスニペットの自動識別の実現可能性について検討する。
我々は、CodeBERT上に構築されたGPTSnifferと呼ばれる新しいアプローチを提案し、AIによって書かれたソースコードを検出する。
その結果、GPTSnifferは、コードが人間書きなのかAI生成なのかを正確に分類でき、2つのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-18T16:01:15Z) - AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。
これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T22:59:01Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。