論文の概要: Assessing AI Detectors in Identifying AI-Generated Code: Implications
for Education
- arxiv url: http://arxiv.org/abs/2401.03676v1
- Date: Mon, 8 Jan 2024 05:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:44:16.872998
- Title: Assessing AI Detectors in Identifying AI-Generated Code: Implications
for Education
- Title(参考訳): AI生成コードの識別におけるAI検出器の評価:教育への影響
- Authors: Wei Hung Pan, Ming Jie Chok, Jonathan Leong Shan Wong, Yung Xin Shin,
Yeong Shian Poon, Zhou Yang, Chun Yong Chong, David Lo, Mei Kuan Lim
- Abstract要約: 本稿では,AIGC検出器による検出を回避しようとする試みについて,LLMを実証的に検討する。
これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。
以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。
- 参考スコア(独自算出の注目度): 8.592066814291819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Educators are increasingly concerned about the usage of Large Language Models
(LLMs) such as ChatGPT in programming education, particularly regarding the
potential exploitation of imperfections in Artificial Intelligence Generated
Content (AIGC) Detectors for academic misconduct. In this paper, we present an
empirical study where the LLM is examined for its attempts to bypass detection
by AIGC Detectors. This is achieved by generating code in response to a given
question using different variants. We collected a dataset comprising 5,069
samples, with each sample consisting of a textual description of a coding
problem and its corresponding human-written Python solution codes. These
samples were obtained from various sources, including 80 from Quescol, 3,264
from Kaggle, and 1,725 from LeetCode. From the dataset, we created 13 sets of
code problem variant prompts, which were used to instruct ChatGPT to generate
the outputs. Subsequently, we assessed the performance of five AIGC detectors.
Our results demonstrate that existing AIGC Detectors perform poorly in
distinguishing between human-written code and AI-generated code.
- Abstract(参考訳): 教育者は、プログラミング教育におけるChatGPTのような大規模言語モデル(LLM)の使用、特に人工知能生成コンテンツ(AIGC)検出装置における欠陥の潜在的利用について、ますます懸念している。
本稿では,AIGC検出器による検出を回避しようとするLLMについて,実験的検討を行った。
これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。
我々は,5,069個のサンプルからなるデータセットを収集し,各サンプルは,符号化問題とその対応するPythonソリューションコードのテキスト記述からなる。
これらのサンプルは、Quescolの80、Kaggleの3,264、LeetCodeの1,725など、さまざまなソースから得られた。
データセットから13組のコード問題変動プロンプトを作成し、ChatGPTに出力を生成するように指示した。
その後,5つのAIGC検出器の性能評価を行った。
以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。
関連論文リスト
- Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文 参考訳(メタデータ) (2024-04-11T08:27:23Z) - Whodunit: Classifying Code as Human Authored or GPT-4 Generated -- A
case study on CodeChef problems [0.13124513975412253]
コードスタイメトリーと機械学習を用いて、GPT-4の生成したコードと人間によるコードとを区別する。
我々のデータセットは、CodeChefの人間認可ソリューションと、GPT-4で生成されたAI認可ソリューションから構成される。
本研究は, GPT-4生成コードと人為的なコードとを区別する上で, コードスタイメトリーは有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-06T19:51:26Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Assessing the Promise and Pitfalls of ChatGPT for Automated Code
Generation [2.0400340435492272]
本稿では,著名な大規模言語モデルであるChatGPTのコード生成能力を総合的に評価する。
5つのカテゴリにまたがる131のコード生成プロンプトのデータセットをキュレートして、堅牢な分析を可能にした。
コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。
論文 参考訳(メタデータ) (2023-11-05T12:56:40Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。