Fugu-MT 論文翻訳(概要): Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting

論文の概要: Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting

arxiv url: http://arxiv.org/abs/2405.16133v3
Date: Mon, 16 Dec 2024 15:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.139402
Title: Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting
Title（参考訳）: LLM生成コード:コード書き換えによるゼロショット合成コード検出器
Authors: Tong Ye, Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji, Wenhai Wang,
Abstract要約: 原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
参考スコア（独自算出の注目度）: 78.48355455324688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in generating code. However, the misuse of LLM-generated (synthetic) code has raised concerns in both educational and industrial contexts, underscoring the urgent need for synthetic code detectors. Existing methods for detecting synthetic content are primarily designed for general text and struggle with code due to the unique grammatical structure of programming languages and the presence of numerous ''low-entropy'' tokens. Building on this, our work proposes a novel zero-shot synthetic code detector based on the similarity between the original code and its LLM-rewritten variants. Our method is based on the observation that differences between LLM-rewritten and original code tend to be smaller when the original code is synthetic. We utilize self-supervised contrastive learning to train a code similarity model and evaluate our approach on two synthetic code detection benchmarks. Our results demonstrate a significant improvement over existing SOTA synthetic content detectors, with AUROC scores increasing by 20.5% on the APPS benchmark and 29.1% on the MBPP benchmark.
Abstract（参考訳）: LLM(Large Language Models)は、コード生成に顕著な習熟性を示している。しかし、LLM生成(合成)コードの誤用は、教育と産業の両方の文脈で懸念を生じさせ、合成コード検出装置の緊急な必要性を浮き彫りにした。既存の合成コンテンツ検出法は主に、プログラミング言語の独特の文法構造と多数の「低エントロピー」トークンの存在により、一般的なテキストやコードに苦しむように設計されている。そこで本研究では,原符号とLLM書き換え変種との類似性に基づくゼロショット合成符号検出器を提案する。本手法は,LLM書き換え符号と原符号との差が,原符号が合成された場合に小さくなる傾向にあることを示す。自己教師付きコントラスト学習を用いて、コード類似性を訓練し、2つの合成コード検出ベンチマークに対するアプローチを評価する。 AUROCはAPPSベンチマークで20.5%、MBPPベンチマークで29.1%上昇した。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文参考訳（メタデータ） (2025-06-06T13:23:37Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。 LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。 LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文参考訳（メタデータ） (2025-02-25T00:58:06Z)
Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文参考訳（メタデータ） (2024-12-06T17:40:38Z)
Towards Specification-Driven LLM-Based Generation of Embedded Automotive Software [0.4369550829556578]
本稿では,LLMによるコード生成と形式検証を組み合わせ,重要な組込みソフトウェアを作成する方法について検討する。目標は、仕様のみから産業品質のコードを自動的に生成することだ。
論文参考訳（メタデータ） (2024-11-20T12:38:17Z)
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
言語モデル(LM)はプログラムを1回のパスで自動的に合成する。コード合成のための高品質な命令データが不足している一方で、合成のための編集データが不足している。我々はこのギャップを埋めるためにLintSeqと呼ばれる合成データ生成アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-10-03T17:57:22Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文参考訳（メタデータ） (2024-01-11T14:27:43Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文参考訳（メタデータ） (2023-09-17T00:29:32Z)
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。 EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文参考訳（メタデータ） (2023-05-02T05:46:48Z)
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。 n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文参考訳（メタデータ） (2020-09-22T03:10:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。