Fugu-MT 論文翻訳(概要): Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers

論文の概要: Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers

arxiv url: http://arxiv.org/abs/2401.06461v5
Date: Tue, 30 Jul 2024 09:26:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 22:29:35.603416
Title: Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers
Title（参考訳）: コードの行間:機械と人間のプログラマの固有のパターンを明らかにする
Authors: Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu,
Abstract要約: 機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
参考スコア（独自算出の注目度）: 14.018844722021896
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine- and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine- and human-authored code. Through a rigorous analysis of code attributes such as lexical diversity, conciseness, and naturalness, we expose unique patterns inherent to each source. We particularly notice that the syntactic segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose DetectCodeGPT, a novel method for detecting machine-generated code, which improves DetectGPT by capturing the distinct stylized patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code.
Abstract（参考訳）: 大規模言語モデルはコード生成において前例のない波を触媒している。大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。 DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。したがって、コードに適用された場合、適用性は低下する。本稿では,機械と人為的なコードの特徴を特徴付ける特定のパターンについて,慎重に検討する。語彙の多様性、簡潔さ、自然さといったコード属性の厳密な分析を通じて、各ソース固有のユニークなパターンを明らかにする。特に、コードの構文的セグメンテーションが、その証明を識別する上で重要な要素であることに気付きます。そこで本研究では, 異なるスタイルのコードパターンを抽出して, 検出精度を向上する, 機械生成コード検出の新しい手法であるDetectCodeGPTを提案する。摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率を両立させる。実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。

関連論文リスト

Code Fingerprints: Disentangled Attribution of LLM-Generated Code [7.515488307576106]
生成したコードに責任を負うソースLLMを決定することを目的とした,モデルレベルのコード属性の問題について検討する。本稿では、ソース非依存のセマンティック情報とソース-特異なスタイル表現を分離するDisentangled Code Attribution Network (DCAN)を提案する。 4つのプログラミング言語で広く使われている4つの大規模言語モデル(LLM)が生成するコードからなる,最初の大規模ベンチマークデータセットを構築した。
論文参考訳（メタデータ） (2026-03-04T15:58:36Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
CodeVision: Detecting LLM-Generated Code Using 2D Token Probability Maps and Vision Models [28.711745671275477]
大規模言語モデル(LLM)の台頭により、自動コード生成が大幅に改善され、ソフトウェア開発の効率が向上した。事前訓練されたモデルや透かしなどの既存の検出方法は、適応性と計算効率の制限に直面している。本稿では,視覚モデルと組み合わせた2次元トークン確率マップを用いた新しい検出手法を提案する。
論文参考訳（メタデータ） (2025-01-06T06:15:10Z)
An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文参考訳（メタデータ） (2024-11-06T22:48:18Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。トピックと検出性能の間に有意な相関関係が発見された。これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文参考訳（メタデータ） (2023-12-20T10:53:53Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-24T11:49:52Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文参考訳（メタデータ） (2022-10-31T15:06:15Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。