Fugu-MT 論文翻訳(概要): CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs

論文の概要: CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs

arxiv url: http://arxiv.org/abs/2506.11059v1
Date: Tue, 27 May 2025 03:25:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.5288
Title: CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs
Title（参考訳）: CodeMirage: 生産レベルLLMからAI生成およびパラフレーズソースコードを検出するための多言語ベンチマーク
Authors: Hanxi Guo, Siyuan Cheng, Kaiyuan Zhang, Guangyu Shen, Xiangyu Zhang,
Abstract要約: 大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、膨大な量のAI生成ソースコードを生み出している。既存のベンチマークは不足している -- ほとんどの場合、限られたプログラム言語のみをカバーし、能力の低い生成モデルに依存している。私たちは、広く使われている10のプログラミング言語にまたがるベンチマークであるCodeMirageを紹介します。
参考スコア（独自算出の注目度）: 15.25980318643715
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have become integral to modern software development, producing vast amounts of AI-generated source code. While these models boost programming productivity, their misuse introduces critical risks, including code plagiarism, license violations, and the propagation of insecure programs. As a result, robust detection of AI-generated code is essential. To support the development of such detectors, a comprehensive benchmark that reflects real-world conditions is crucial. However, existing benchmarks fall short -- most cover only a limited set of programming languages and rely on less capable generative models. In this paper, we present CodeMirage, a comprehensive benchmark that addresses these limitations through three major advancements: (1) it spans ten widely used programming languages, (2) includes both original and paraphrased code samples, and (3) incorporates outputs from ten state-of-the-art production-level LLMs, including both reasoning and non-reasoning models from six major providers. Using CodeMirage, we evaluate ten representative detectors across four methodological paradigms under four realistic evaluation configurations, reporting results using three complementary metrics. Our analysis reveals nine key findings that uncover the strengths and weaknesses of current detectors, and identify critical challenges for future work. We believe CodeMirage offers a rigorous and practical testbed to advance the development of robust and generalizable AI-generated code detectors.
Abstract（参考訳）: 大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、膨大な量のAI生成ソースコードを生み出している。これらのモデルによってプログラミングの生産性が向上する一方で、コード盗用、ライセンス違反、安全でないプログラムの伝播といった重大なリスクが生じる。結果として、AI生成コードの堅牢な検出が不可欠である。このような検出器の開発を支援するために、実環境を反映した包括的なベンチマークが不可欠である。しかし、既存のベンチマークは不足している。ほとんどの場合、限られたプログラミング言語のみをカバーし、あまり有能でない生成モデルに依存している。本稿では、(1)広く使われている10のプログラミング言語にまたがる、(2)原文とパラフレーズの両方のコードサンプル、(3)6つの主要プロバイダの推論モデルと非推論モデルを含む10の最先端のLCMからの出力を含む、これらの制限に対処する包括的なベンチマークであるCodeMirageを提案する。 CodeMirageを用いて,4つの方法論的パラダイムにまたがる10の代表的な検出器を4つの現実的評価構成で評価し,3つの相補的指標を用いて結果を報告する。我々の分析では、現在の検出器の強みと弱さを明らかにし、将来の作業における重要な課題を特定する9つの重要な発見を明らかにした。 CodeMirageは、堅牢で一般化可能なAI生成コード検出器の開発を進めるために、厳格で実用的なテストベッドを提供していると信じています。

関連論文リスト

Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。 63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文参考訳（メタデータ） (2025-08-06T13:48:38Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-17T21:41:37Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。 CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文参考訳（メタデータ） (2025-02-11T01:12:11Z)
An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文参考訳（メタデータ） (2024-11-06T22:48:18Z)
Harnessing the Power of LLMs in Source Code Vulnerability Detection [0.0]
ソースコードの意図しない欠陥によって引き起こされるソフトウェア脆弱性は、サイバー攻撃の根本原因である。我々はLarge Language Modelsの機能を利用してソースコードを分析し、既知の脆弱性を検出する。
論文参考訳（メタデータ） (2024-08-07T00:48:49Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
A Comparative Study of Code Generation using ChatGPT 3.5 across 10 Programming Languages [0.0]
LLM(Large Language Models)は、高度な人工知能(AI)システムである。本研究では,2022年11月にOpenAIがリリースしたLLMであるChatGPT 3.5の符号化能力について検討する。コードスニペットを作成する際のモデルのスキルは、10の異なるプログラミング言語と4つの異なるソフトウェアドメインで評価される。
論文参考訳（メタデータ） (2023-08-08T15:02:32Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。