論文の概要: Between Lines of Code: Unraveling the Distinct Patterns of Machine and
Human Programmers
- arxiv url: http://arxiv.org/abs/2401.06461v2
- Date: Wed, 24 Jan 2024 14:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:41:49.709741
- Title: Between Lines of Code: Unraveling the Distinct Patterns of Machine and
Human Programmers
- Title(参考訳): コードの行間:機械と人間のプログラマの固有のパターンを明らかにする
- Authors: Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu
- Abstract要約: 機械と人為的なコードを特徴付ける特定のパターンについて検討する。
本研究では,DeuterCodeGPTと呼ばれる新しい機械生成コード検出手法を提案する。
提案手法は, 機械生成コードの検出における最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 15.314580751870777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have catalyzed an unprecedented wave in code
generation. While achieving significant advances, they blur the distinctions
between machine-and human-authored source code, causing integrity and
authenticity issues of software artifacts. Previous methods such as DetectGPT
have proven effective in discerning machine-generated texts, but they do not
identify and harness the unique patterns of machine-generated code. Thus, its
applicability falters when applied to code. In this paper, we carefully study
the specific patterns that characterize machine and human-authored code.
Through a rigorous analysis of code attributes such as length, lexical
diversity, and naturalness, we expose unique pat-terns inherent to each source.
We particularly notice that the structural segmentation of code is a critical
factor in identifying its provenance. Based on our findings, we propose a novel
machine-generated code detection method called DetectCodeGPT, which improves
DetectGPT by capturing the distinct structural patterns of code. Diverging from
conventional techniques that depend on external LLMs for perturbations,
DetectCodeGPT perturbs the code corpus by strategically inserting spaces and
newlines, ensuring both efficacy and efficiency. Experiment results show that
our approach significantly outperforms state-of-the-art techniques in detecting
machine-generated code.
- Abstract(参考訳): 大規模言語モデルはコード生成において前例のない波を触媒している。
大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。
DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。
したがって、コードに適用した場合、適用性は低下する。
本稿では,機械と人為的コードを特徴付ける特定のパターンを慎重に研究する。
長さや語彙の多様性,自然さといったコード属性の厳密な分析を通じて,各ソース固有のパタンを露呈する。
特に、コードの構造的セグメンテーションが、その成果を特定する上で重要な要素であることに気付きます。
そこで本研究では,コードの構造パターンを抽出し,検出GPTの精度を向上する,DeuterCodeGPTという新しいコード検出手法を提案する。
摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率性を確保する。
実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。
関連論文リスト
- Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Reverse-Engineering Decoding Strategies Given Blackbox Access to a
Language Generation System [73.52878118434147]
テキスト生成に使用する復号法をリバースエンジニアリングする手法を提案する。
どのようなデコード戦略が使われたかを検出する能力は、生成されたテキストを検出することに影響を及ぼす。
論文 参考訳(メタデータ) (2023-09-09T18:19:47Z) - Discriminating Human-authored from ChatGPT-Generated Code Via
Discernable Feature Analysis [2.9398911304923447]
本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。
時間的・空間的セグメンテーションを用いたデータセット浄化手法を考案し,データセットの変形を緩和する。
データリソースをさらに強化するために、我々は、ChatGPT生成コードの1万行からなる広範囲なデータセットを生成する"コード変換"、"機能変換"、"機能カスタマイズ"技術を採用している。
論文 参考訳(メタデータ) (2023-06-26T03:15:06Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Code Difference Guided Adversarial Example Generation for Deep Code
Models [25.01072108219646]
ディープコードモデルの堅牢性をテストし、強化する上で、敵対的な例は重要です。
深層コードモデルをテストするための新しい逆例生成手法(CODA)を提案する。
論文 参考訳(メタデータ) (2023-01-06T08:03:56Z) - A Hierarchical Deep Neural Network for Detecting Lines of Codes with
Vulnerabilities [6.09170287691728]
ソースコードの意図しない欠陥によって引き起こされるソフトウェア脆弱性は、サイバー攻撃の根本原因である。
本稿では,自然言語処理で使用されている手法に基づいて,LLVM IR表現から脆弱性を検出するためのディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T21:21:27Z) - A Simple, Yet Effective Approach to Finding Biases in Code Generation [16.094062131137722]
この研究は、現在のコード生成システムが、彼らの大きな言語モデルバックボーンから受け継がれた望ましくないバイアスを示すことを示している。
コーディング課題のモジュラー分解と解析を可能にする「影響ブロック」の概念を提案する。
論文 参考訳(メタデータ) (2022-10-31T15:06:15Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。