論文の概要: AICD Bench: A Challenging Benchmark for AI-Generated Code Detection
- arxiv url: http://arxiv.org/abs/2602.02079v1
- Date: Mon, 02 Feb 2026 13:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.164074
- Title: AICD Bench: A Challenging Benchmark for AI-Generated Code Detection
- Title(参考訳): AICD Bench: AI生成コード検出のためのベンチマーク
- Authors: Daniil Orel, Dilshod Azizov, Indraneil Paul, Yuxia Wang, Iryna Gurevych, Preslav Nakov,
- Abstract要約: AICD Benchは、AI生成コード検出の最も包括的なベンチマークである。
これは$emph2Mサンプル$、$emph77モデル$、$emph11ファミリー$、$emph9プログラミング言語$で、最近の推論モデルを含む。
- 参考スコア(独自算出の注目度): 91.21422299346199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly capable of generating functional source code, raising concerns about authorship, accountability, and security. While detecting AI-generated code is critical, existing datasets and benchmarks are narrow, typically limited to binary human-machine classification under in-distribution settings. To bridge this gap, we introduce $\emph{AICD Bench}$, the most comprehensive benchmark for AI-generated code detection. It spans $\emph{2M examples}$, $\emph{77 models}$ across $\emph{11 families}$, and $\emph{9 programming languages}$, including recent reasoning models. Beyond scale, AICD Bench introduces three realistic detection tasks: ($\emph{i}$)~$\emph{Robust Binary Classification}$ under distribution shifts in language and domain, ($\emph{ii}$)~$\emph{Model Family Attribution}$, grouping generators by architectural lineage, and ($\emph{iii}$)~$\emph{Fine-Grained Human-Machine Classification}$ across human, machine, hybrid, and adversarial code. Extensive evaluation on neural and classical detectors shows that performance remains far below practical usability, particularly under distribution shift and for hybrid or adversarial code. We release AICD Bench as a $\emph{unified, challenging evaluation suite}$ to drive the next generation of robust approaches for AI-generated code detection. The data and the code are available at https://huggingface.co/AICD-bench}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機能的なソースコードを生成する能力が増し、オーサシップ、説明責任、セキュリティに対する懸念が高まっている。
AI生成コードの検出は重要だが、既存のデータセットとベンチマークは狭い。
このギャップを埋めるために、AI生成コード検出の最も包括的なベンチマークである$\emph{AICD Bench}$を紹介します。
これは$\emph{2M examples}$, $\emph{77 models}$ across $\emph{11 family}$, $\emph{9 languages}$にまたがる。
スケール以外にも、AICD Bench氏は、3つの現実的な検出タスクを紹介している。 (\emph{i}$)~$\emph{Robust Binary Classification}$ 言語とドメインの分散シフトの下での$ (\emph{ii}$)~$\emph{Model Family Attribution}$ アーキテクチャの系統によるジェネレータのグループ化と$\emph{iii}$)~$\emph{Fine-Grained Human-Machine Classification}$ 人、機械、ハイブリッド、敵のコードにわたって$
ニューラル検出器と古典検出器の広範囲な評価は、特に分布シフトやハイブリッドコードや逆コードにおいて、実用的ユーザビリティよりもはるかに低い性能を保っていることを示している。
AICD Benchを$\emph{unified, challenge evaluation suite}$としてリリースし、AI生成コード検出のための次世代の堅牢なアプローチを推進します。
データとコードはhttps://huggingface.co/AICD-bench}で公開されている。
関連論文リスト
- MultiAIGCD: A Comprehensive dataset for AI Generated Code Detection Covering Multiple Languages, Models,Prompts, and Scenarios [0.0]
我々は,Python,Java,Go用のAI生成コード検出データセットであるMultiAIGCDを紹介する。
全体として、MultiAIGCDは121,271のAI生成と32,148の人間のコードスニペットで構成されている。
論文 参考訳(メタデータ) (2025-07-29T11:16:55Z) - $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection [75.6327970381944]
$textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
論文 参考訳(メタデータ) (2025-07-11T12:19:06Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - CGEMs: A Metric Model for Automatic Code Generation using GPT-3 [0.0]
本研究は,理論的証明を用いて,あるいはモンテカルロシミュレーション法を用いてAI生成コンテンツを検証することを目的とする。
この場合、後者の手法を用いて統計的にかなりの数のサンプルを検査・検証する。
コンパイル、ロジック変換へのNL記述、必要な編集数、一般的に使用されている静的コードメトリクスとNLPメトリクス。
論文 参考訳(メタデータ) (2021-08-23T13:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。