Fugu-MT 論文翻訳(概要): Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting

論文の概要: Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting

arxiv url: http://arxiv.org/abs/2405.16133v2
Date: Thu, 30 May 2024 02:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 19:55:34.053509
Title: Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting
Title（参考訳）: LLM生成コード:コード書き換えによるゼロショット合成コード検出器
Authors: Tong Ye, Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji, Wenhai Wang,
Abstract要約: そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
参考スコア（独自算出の注目度）: 78.48355455324688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have exhibited remarkable proficiency in generating code. However, the misuse of LLM-generated (Synthetic) code has prompted concerns within both educational and industrial domains, highlighting the imperative need for the development of synthetic code detectors. Existing methods for detecting LLM-generated content are primarily tailored for general text and often struggle with code content due to the distinct grammatical structure of programming languages and massive "low-entropy" tokens. Building upon this, our work proposes a novel zero-shot synthetic code detector based on the similarity between the code and its rewritten variants. Our method relies on the intuition that the differences between the LLM-rewritten and original codes tend to be smaller when the original code is synthetic. We utilize self-supervised contrastive learning to train a code similarity model and assess our approach on two synthetic code detection benchmarks. Our results demonstrate a notable enhancement over existing synthetic content detectors designed for general texts, with an improvement of 20.5% in the APPS benchmark and 29.1% in the MBPP benchmark.
Abstract（参考訳）: LLM(Large Language Models)は、コード生成に優れた能力を発揮している。しかし、LLM生成(合成)コードの誤用は、教育分野と産業分野の両方で懸念を引き起こしており、合成コード検出器の開発に必須の必要性が浮かび上がっている。 LLM生成されたコンテンツを検出する既存の方法は、主に一般的なテキスト用に調整されており、プログラミング言語の文法的構造や巨大な"低エントロピー"トークンのために、しばしばコードの内容に苦しむ。そこで本研究では,コードと書き換え版との類似性に基づくゼロショット合成符号検出手法を提案する。本手法は,LLM書き直し符号と原符号との差が,原符号が合成されたときに小さくなる傾向にあるという直感に依存する。自己教師付きコントラスト学習を用いて、コード類似性を訓練し、2つの合成コード検出ベンチマークでアプローチを評価する。以上の結果から,APPSベンチマークでは20.5%,MBPPベンチマークでは29.1%の改善が得られた。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文参考訳（メタデータ） (2025-06-06T13:23:37Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。 LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。 LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文参考訳（メタデータ） (2025-02-25T00:58:06Z)
Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文参考訳（メタデータ） (2024-12-06T17:40:38Z)
Towards Specification-Driven LLM-Based Generation of Embedded Automotive Software [0.4369550829556578]
本稿では,LLMによるコード生成と形式検証を組み合わせ,重要な組込みソフトウェアを作成する方法について検討する。目標は、仕様のみから産業品質のコードを自動的に生成することだ。
論文参考訳（メタデータ） (2024-11-20T12:38:17Z)
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
言語モデル(LM)はプログラムを1回のパスで自動的に合成する。コード合成のための高品質な命令データが不足している一方で、合成のための編集データが不足している。我々はこのギャップを埋めるためにLintSeqと呼ばれる合成データ生成アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-10-03T17:57:22Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文参考訳（メタデータ） (2024-01-11T14:27:43Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文参考訳（メタデータ） (2023-09-17T00:29:32Z)
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。 EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文参考訳（メタデータ） (2023-05-02T05:46:48Z)
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。 n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文参考訳（メタデータ） (2020-09-22T03:10:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。