論文の概要: MultiAIGCD: A Comprehensive dataset for AI Generated Code Detection Covering Multiple Languages, Models,Prompts, and Scenarios
- arxiv url: http://arxiv.org/abs/2507.21693v1
- Date: Tue, 29 Jul 2025 11:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.057035
- Title: MultiAIGCD: A Comprehensive dataset for AI Generated Code Detection Covering Multiple Languages, Models,Prompts, and Scenarios
- Title(参考訳): MultiAIGCD: 複数の言語、モデル、プロンプト、シナリオをカバーするAI生成コード検出のための総合データセット
- Authors: Basak Demirok, Mucahid Kutlu, Selin Mergen,
- Abstract要約: 我々は,Python,Java,Go用のAI生成コード検出データセットであるMultiAIGCDを紹介する。
全体として、MultiAIGCDは121,271のAI生成と32,148の人間のコードスニペットで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) rapidly advance, their role in code generation has expanded significantly. While this offers streamlined development, it also creates concerns in areas like education and job interviews. Consequently, developing robust systems to detect AI-generated code is imperative to maintain academic integrity and ensure fairness in hiring processes. In this study, we introduce MultiAIGCD, a dataset for AI-generated code detection for Python, Java, and Go. From the CodeNet dataset's problem definitions and human-authored codes, we generate several code samples in Java, Python, and Go with six different LLMs and three different prompts. This generation process covered three key usage scenarios: (i) generating code from problem descriptions, (ii) fixing runtime errors in human-written code, and (iii) correcting incorrect outputs. Overall, MultiAIGCD consists of 121,271 AI-generated and 32,148 human-written code snippets. We also benchmark three state-of-the-art AI-generated code detection models and assess their performance in various test scenarios such as cross-model and cross-language. We share our dataset and codes to support research in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)が急速に進歩するにつれて、コード生成における彼らの役割は大幅に拡大した。
これは合理化された開発を提供するが、教育や就職面接といった分野にも懸念をもたらす。
したがって、AI生成コードを検出する堅牢なシステムを開発することは、学術的整合性を維持し、採用プロセスの公正性を確保するために不可欠である。
本研究では,Python,Java,Go用のAI生成コード検出データセットであるMultiAIGCDを紹介する。
CodeNetデータセットの問題定義と人間によるコードから、Java、Python、Goのコードサンプルを6つの異なるLLMと3つの異なるプロンプトで生成します。
この生成プロセスは3つの主要な利用シナリオをカバーしている。
一 問題記述からコードを生成すること。
二 人書きコードにおける実行時エラーの修正、及び
三 不正な出力を補正すること。
全体として、MultiAIGCDは121,271のAI生成と32,148の人間のコードスニペットで構成されている。
また、最先端のAI生成コード検出モデル3つをベンチマークし、クロスモデルやクロス言語など、さまざまなテストシナリオでそれらのパフォーマンスを評価する。
この分野での研究を支援するために、データセットとコードを共有しています。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection [75.6327970381944]
$textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
論文 参考訳(メタデータ) (2025-07-11T12:19:06Z) - CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs [15.25980318643715]
大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、膨大な量のAI生成ソースコードを生み出している。
既存のベンチマークは不足している -- ほとんどの場合、限られたプログラム言語のみをカバーし、能力の低い生成モデルに依存している。
私たちは、広く使われている10のプログラミング言語にまたがるベンチマークであるCodeMirageを紹介します。
論文 参考訳(メタデータ) (2025-05-27T03:25:12Z) - CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。
これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。
複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T21:41:37Z) - KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。
自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。
このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文 参考訳(メタデータ) (2025-03-04T19:17:36Z) - AIGCodeSet: A New Annotated Dataset for AI Generated Code Detection [0.0]
AIGCodeSetは2.828のAI生成コードと4.755の人手によるPythonコードで構成される。
ベイズ分類器が他のモデルより優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2024-12-21T11:53:49Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Assessing AI Detectors in Identifying AI-Generated Code: Implications
for Education [8.592066814291819]
本稿では,AIGC検出器による検出を回避しようとする試みについて,LLMを実証的に検討する。
これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。
以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。
論文 参考訳(メタデータ) (2024-01-08T05:53:52Z) - The Vault: A Comprehensive Multilingual Dataset for Advancing Code
Understanding and Generation [5.2510537676167335]
複数のプログラミング言語における高品質なコードテキストペアのデータセットであるThe Vaultを提示する。
我々の評価では、The Vault上でコード大言語モデルを微調整すると、このようなモデルはCodeSearchNetのような他のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-09T09:35:03Z) - xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code
Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。
コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。
xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文 参考訳(メタデータ) (2023-03-06T10:08:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。