論文の概要: Zero-Shot Detection of Machine-Generated Codes
- arxiv url: http://arxiv.org/abs/2310.05103v1
- Date: Sun, 8 Oct 2023 10:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:34:59.254406
- Title: Zero-Shot Detection of Machine-Generated Codes
- Title(参考訳): マシン生成コードのゼロショット検出
- Authors: Xianjun Yang, Kexun Zhang, Haifeng Chen, Linda Petzold, William Yang
Wang, Wei Cheng
- Abstract要約: 本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
- 参考スコア(独自算出の注目度): 83.0342513054389
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work proposes a training-free approach for the detection of
LLMs-generated codes, mitigating the risks associated with their indiscriminate
usage. To the best of our knowledge, our research is the first to investigate
zero-shot detection techniques applied to code generated by advanced black-box
LLMs like ChatGPT. Firstly, we find that existing training-based or zero-shot
text detectors are ineffective in detecting code, likely due to the unique
statistical properties found in code structures. We then modify the previous
zero-shot text detection method, DetectGPT (Mitchell et al., 2023) by utilizing
a surrogate white-box model to estimate the probability of the rightmost
tokens, allowing us to identify code snippets generated by language models.
Through extensive experiments conducted on the python codes of the CodeContest
and APPS dataset, our approach demonstrates its effectiveness by achieving
state-of-the-art detection results on text-davinci-003, GPT-3.5, and GPT-4
models. Moreover, our method exhibits robustness against revision attacks and
generalizes well to Java codes. We also find that the smaller code language
model like PolyCoder-160M performs as a universal code detector, outperforming
the billion-scale counterpart. The codes will be available at
https://github.com/ Xianjun-Yang/Code_detection.git
- Abstract(参考訳): 本研究は,LLMの生成するコードを検出するためのトレーニング不要な手法を提案する。
我々の知る限りでは、ChatGPTのような高度なブラックボックスLLMによって生成されたコードに適用されるゼロショット検出手法を最初に研究した。
まず、既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード構造に特有の統計特性があるため、コード検出に効果がないことが判明した。
次に,ゼロショットテキスト検出法である detectiongpt (mitchell et al., 2023) を,サロゲートホワイトボックスモデルを用いて最右端トークンの確率を推定することで修正し,言語モデルによって生成されたコードスニペットを識別できるようにした。
CodeContestとAPPSデータセットのピソン符号に関する広範な実験を通じて,テキストダヴィンチ003, GPT-3.5, GPT-4モデルに対する最先端検出結果を得ることにより,その有効性を示す。
さらに,本手法はリビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
また、PolyCoder-160Mのようなより小さなコード言語モデルは、万能コード検出器として機能し、数十億の規模を上回ります。
コードはhttps://github.com/Xianjun-Yang/Code_detection.gitで入手できる。
関連論文リスト
- Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text
via Conditional Probability Curvature [36.31281981509264]
大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生成する能力を示している。
信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。
Fast-DetectGPTは、ディテクターGPTの摂動ステップを、より効率的なサンプリングステップで置き換える最適化されたゼロショット検出器である。
論文 参考訳(メタデータ) (2023-10-08T11:41:28Z) - Code Detection for Hardware Acceleration Using Large Language Models [0.0]
本研究は,大規模言語モデル(LLM)を用いたコード検出の最初の解析である。
コード検出のための予備的かつ素直なプロンプトと,新しいプロンプト戦略を提案する。
その結果, GEMM, 畳み込み, FFTでは68.8%, 22.3%, 79.2%の精度が得られた。
我々の新たなプロンプト戦略は偽陽性を大幅に減らし, 総合的精度(91.1%, 97.9%, 99.7%)は良好である。
論文 参考訳(メタデータ) (2023-07-19T17:21:58Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。