論文の概要: MultiAIGCD: A Comprehensive dataset for AI Generated Code Detection Covering Multiple Languages, Models,Prompts, and Scenarios
- arxiv url: http://arxiv.org/abs/2507.21693v1
- Date: Tue, 29 Jul 2025 11:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.057035
- Title: MultiAIGCD: A Comprehensive dataset for AI Generated Code Detection Covering Multiple Languages, Models,Prompts, and Scenarios
- Title(参考訳): MultiAIGCD: 複数の言語、モデル、プロンプト、シナリオをカバーするAI生成コード検出のための総合データセット
- Authors: Basak Demirok, Mucahid Kutlu, Selin Mergen,
- Abstract要約: 我々は,Python,Java,Go用のAI生成コード検出データセットであるMultiAIGCDを紹介する。
全体として、MultiAIGCDは121,271のAI生成と32,148の人間のコードスニペットで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) rapidly advance, their role in code generation has expanded significantly. While this offers streamlined development, it also creates concerns in areas like education and job interviews. Consequently, developing robust systems to detect AI-generated code is imperative to maintain academic integrity and ensure fairness in hiring processes. In this study, we introduce MultiAIGCD, a dataset for AI-generated code detection for Python, Java, and Go. From the CodeNet dataset's problem definitions and human-authored codes, we generate several code samples in Java, Python, and Go with six different LLMs and three different prompts. This generation process covered three key usage scenarios: (i) generating code from problem descriptions, (ii) fixing runtime errors in human-written code, and (iii) correcting incorrect outputs. Overall, MultiAIGCD consists of 121,271 AI-generated and 32,148 human-written code snippets. We also benchmark three state-of-the-art AI-generated code detection models and assess their performance in various test scenarios such as cross-model and cross-language. We share our dataset and codes to support research in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)が急速に進歩するにつれて、コード生成における彼らの役割は大幅に拡大した。
これは合理化された開発を提供するが、教育や就職面接といった分野にも懸念をもたらす。
したがって、AI生成コードを検出する堅牢なシステムを開発することは、学術的整合性を維持し、採用プロセスの公正性を確保するために不可欠である。
本研究では,Python,Java,Go用のAI生成コード検出データセットであるMultiAIGCDを紹介する。
CodeNetデータセットの問題定義と人間によるコードから、Java、Python、Goのコードサンプルを6つの異なるLLMと3つの異なるプロンプトで生成します。
この生成プロセスは3つの主要な利用シナリオをカバーしている。
一 問題記述からコードを生成すること。
二 人書きコードにおける実行時エラーの修正、及び
三 不正な出力を補正すること。
全体として、MultiAIGCDは121,271のAI生成と32,148の人間のコードスニペットで構成されている。
また、最先端のAI生成コード検出モデル3つをベンチマークし、クロスモデルやクロス言語など、さまざまなテストシナリオでそれらのパフォーマンスを評価する。
この分野での研究を支援するために、データセットとコードを共有しています。
関連論文リスト
- $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection [75.6327970381944]
$textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
論文 参考訳(メタデータ) (2025-07-11T12:19:06Z) - AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection [0.0]
AIGCodeSetは2.828のAI生成コードと4.755の人手によるPythonコードで構成される。
ベイズ分類器が他のモデルより優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2024-12-21T11:53:49Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Assessing AI Detectors in Identifying AI-Generated Code: Implications
for Education [8.592066814291819]
本稿では,AIGC検出器による検出を回避しようとする試みについて,LLMを実証的に検討する。
これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。
以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。
論文 参考訳(メタデータ) (2024-01-08T05:53:52Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。