論文の概要: $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection
- arxiv url: http://arxiv.org/abs/2507.10583v1
- Date: Fri, 11 Jul 2025 12:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.748909
- Title: $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection
- Title(参考訳): $\texttt{Droid}$:AI生成コード検出のためのリソーススイート
- Authors: Daniil Orel, Indraneil Paul, Iryna Gurevych, Preslav Nakov,
- Abstract要約: $textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
- 参考スコア(独自算出の注目度): 75.6327970381944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we compile $\textbf{$\texttt{DroidCollection}$}$, the most extensive open data suite for training and evaluating machine-generated code detectors, comprising over a million code samples, seven programming languages, outputs from 43 coding models, and over three real-world coding domains. Alongside fully AI-generated samples, our collection includes human-AI co-authored code, as well as adversarial samples explicitly crafted to evade detection. Subsequently, we develop $\textbf{$\texttt{DroidDetect}$}$, a suite of encoder-only detectors trained using a multi-task objective over $\texttt{DroidCollection}$. Our experiments show that existing detectors' performance fails to generalise to diverse coding domains and programming languages outside of their narrow training data. Additionally, we demonstrate that while most detectors are easily compromised by humanising the output distributions using superficial prompting and alignment approaches, this problem can be easily amended by training on a small amount of adversarial data. Finally, we demonstrate the effectiveness of metric learning and uncertainty-based resampling as means to enhance detector training on possibly noisy distributions.
- Abstract(参考訳): この作業では、100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、および3つの実世界のコーディングドメインからなる、マシン生成コード検出器のトレーニングと評価のための最も広範なオープンデータスイートである$\textbf{$\texttt{DroidCollection}$}をコンパイルする。
完全なAI生成サンプルに加えて、私たちのコレクションには、人間とAIが共著したコードと、検出を避けるために明示的に作られた敵のサンプルが含まれています。
その後、$\textbf{$\texttt{DroidDetect}$}, $\texttt{DroidCollection}$上で、マルチタスクの目的を使ってトレーニングされたエンコーダのみの検出器スイートである$\textbf{$\texttt{DroidDetect}$}を開発した。
実験の結果,既存の検出器の性能は,狭い学習データ以外の様々なコーディング領域やプログラミング言語に一般化できないことがわかった。
さらに、ほとんどの検出器は、表面的なプロンプトとアライメントアプローチを用いて出力分布を人為的に操作することで容易に妥協できるが、この問題は少量の逆データによるトレーニングによって容易に修正可能であることを実証した。
最後に, 距離学習と不確実性に基づく再サンプリングの有効性を, ノイズの可能性のある分布に対する検出訓練の強化として示す。
関連論文リスト
- Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Assessing AI Detectors in Identifying AI-Generated Code: Implications
for Education [8.592066814291819]
本稿では,AIGC検出器による検出を回避しようとする試みについて,LLMを実証的に検討する。
これは、異なる変種を使用して与えられた質問に応答してコードを生成することで達成される。
以上の結果から,既存のAIGCインテグレータは,人間の書き起こしたコードとAI生成したコードとの区別が不十分であることが示された。
論文 参考訳(メタデータ) (2024-01-08T05:53:52Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - ConDA: Contrastive Domain Adaptation for AI-generated Text Detection [17.8787054992985]
大規模言語モデル(LLM)は、ニュース記事のテキスト生成にますます利用されている。
これらのLSMを大規模に偽情報を生成できる潜在的な悪意のある性質を考えると、このようなAI生成テキストのための効果的な検出器を構築することが重要である。
本研究では、AI生成したニューステキストの検出において、このデータ問題に取り組み、その問題を教師なしドメイン適応タスクとしてフレーム化する。
論文 参考訳(メタデータ) (2023-09-07T19:51:30Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。