論文の概要: ChatGPT Code Detection: Techniques for Uncovering the Source of Code
- arxiv url: http://arxiv.org/abs/2405.15512v2
- Date: Wed, 3 Jul 2024 10:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:24:59.208185
- Title: ChatGPT Code Detection: Techniques for Uncovering the Source of Code
- Title(参考訳): ChatGPTコード検出:コードのソースを明らかにする技術
- Authors: Marc Oedingen, Raphael C. Engelhardt, Robin Denz, Maximilian Hammer, Wolfgang Konen,
- Abstract要約: 高度な分類技術を用いて、人間によって書かれたコードとChatGPTによって生成されたコードとを区別する。
我々は、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズムを組み合わせた新しいアプローチを採用する。
トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, large language models (LLMs) have made significant strides in generating computer code, blurring the lines between code created by humans and code produced by artificial intelligence (AI). As these technologies evolve rapidly, it is crucial to explore how they influence code generation, especially given the risk of misuse in areas like higher education. This paper explores this issue by using advanced classification techniques to differentiate between code written by humans and that generated by ChatGPT, a type of LLM. We employ a new approach that combines powerful embedding features (black-box) with supervised learning algorithms - including Deep Neural Networks, Random Forests, and Extreme Gradient Boosting - to achieve this differentiation with an impressive accuracy of 98%. For the successful combinations, we also examine their model calibration, showing that some of the models are extremely well calibrated. Additionally, we present white-box features and an interpretable Bayes classifier to elucidate critical differences between the code sources, enhancing the explainability and transparency of our approach. Both approaches work well but provide at most 85-88% accuracy. We also show that untrained humans solve the same task not better than random guessing. This study is crucial in understanding and mitigating the potential risks associated with using AI in code generation, particularly in the context of higher education, software development, and competitive programming.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は,人間の生成するコードと人工知能(AI)が生成するコードとの間の線を曖昧にしながら,コンピュータコード生成において大きな進歩を遂げている。
これらの技術が急速に進化するにつれて、特に高等教育などの分野での誤用のリスクを考えると、コード生成にどのように影響するかを検討することが不可欠である。
本稿では,人間によって書かれたコードと,LLMの一種であるChatGPTによって生成されたコードとを区別するために,高度な分類手法を用いてこの問題を考察する。
私たちは、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズム(Deep Neural Networks、Random Forests、Extreme Gradient Boostingなど)を組み合わせた新しいアプローチを採用して、この区別を98%の精度で達成しています。
また, モデルキャリブレーションの結果, モデルキャリブレーションが極めて良好であることが確認された。
さらに、ホワイトボックス機能と解釈可能なベイズ分類器を導入し、コードソース間の重要な違いを解明し、我々のアプローチの説明可能性と透明性を高める。
どちらのアプローチもうまく機能するが、少なくとも85-88%の精度を提供する。
また、トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。
この研究は、コード生成におけるAIの使用に伴う潜在的なリスク、特に高等教育、ソフトウェア開発、競争プログラミングの文脈における理解と軽減に不可欠である。
関連論文リスト
- An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We? [8.0988059417354]
本稿では,AI生成コード検出の性能向上のための様々な手法を提案する。
我々の最良のモデルは最先端のAI生成コード検出器(GPTSniffer)より優れており、F1スコアは82.55である。
論文 参考訳(メタデータ) (2024-11-06T22:48:18Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features [11.677042100480232]
我々は,事前学習したモデルから入力シーケンスに関連する豊富な知識を抽出するために,素早い学習を利用するテキスト分類手法であるCodeClassPromptを提案する。
注意機構を適用することで、タスク固有の特徴に多層的知識を合成し、分類精度を向上する。
論文 参考訳(メタデータ) (2024-01-10T20:49:59Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。