論文の概要: Automatic Detection of LLM-generated Code: A Case Study of Claude 3 Haiku
- arxiv url: http://arxiv.org/abs/2409.01382v1
- Date: Mon, 2 Sep 2024 17:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 04:14:12.735008
- Title: Automatic Detection of LLM-generated Code: A Case Study of Claude 3 Haiku
- Title(参考訳): LLM生成符号の自動検出:クロード3俳句を事例として
- Authors: Musfiqur Rahman, SayedHassan Khatoonabadi, Ahmad Abdellatif, Emad Shihab,
- Abstract要約: CodeSearchNetデータセット上でClude 3 Haiku(またはClude 3 for brevity)のケーススタディを実行する。
粒度レベルごとに,コードラインやサイクロマティック複雑度などの22のソフトウェアメトリクス特徴を抽出する。
我々は、Claude 3 が生成したコードスニペットを抽出した特徴を用いて解析し、Claude 3 が生成したコードがいかにユニークかを理解する。
- 参考スコア(独自算出の注目度): 3.5411188659374213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using Large Language Models (LLMs) has gained popularity among software developers for generating source code. However, the use of LLM-generated code can introduce risks of adding suboptimal, defective, and vulnerable code. This makes it necessary to devise methods for the accurate detection of LLM-generated code. Toward this goal, we perform a case study of Claude 3 Haiku (or Claude 3 for brevity) on CodeSearchNet dataset. We divide our analyses into two parts: function-level and class-level. We extract 22 software metric features, such as Code Lines and Cyclomatic Complexity, for each level of granularity. We then analyze code snippets generated by Claude 3 and their human-authored counterparts using the extracted features to understand how unique the code generated by Claude 3 is. In the following step, we use the unique characteristics of Claude 3-generated code to build Machine Learning (ML) models and identify which features of the code snippets make them more detectable by ML models. Our results indicate that Claude 3 tends to generate longer functions, but shorter classes than humans, and this characteristic can be used to detect Claude 3-generated code with ML models with 82% and 66% accuracies for function-level and class-level snippets, respectively.
- Abstract(参考訳): LLM(Large Language Models)の使用は、ソースコードを生成するソフトウェア開発者の間で人気を集めている。
しかし、LLM生成コードを使用することで、最適でない、欠陥のある、脆弱性のあるコードを追加するリスクが生じる可能性がある。
これにより、LCM生成コードの正確な検出方法を考案する必要がある。
この目標に向けて、CodeSearchNetデータセット上でClude 3 Haiku(またはClude 3 for brevity)のケーススタディを実行します。
我々は分析を関数レベルとクラスレベルという2つの部分に分けられる。
粒度レベルごとに,コードラインやサイクロマティック複雑度などの22のソフトウェアメトリクス特徴を抽出する。
次に、抽出した特徴を用いて、Claude 3と、その人間が作成したコードスニペットを分析し、Claude 3で生成されたコードがいかにユニークかを理解する。
次のステップでは、Claude 3生成コードの特徴を利用して機械学習(ML)モデルを構築し、コードスニペットのどの特徴がMLモデルでより検出可能かを識別する。
以上の結果から,Claude 3はより長い関数を生成する傾向にあるが,より短いクラスを生成する傾向があり,この特徴は,関数レベルスニペットとクラスレベルのスニペットの精度が82%,66%のClaude 3生成コードを検出するのに有効であることが示唆された。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Towards Understanding the Capability of Large Language Models on Code
Clone Detection: A Survey [40.99060616674878]
大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。
本稿では,クローン検出のためのLLMを包括的に評価し,異なるクローンタイプ,言語,プロンプトを網羅する。
従来の手法を超越した複雑な意味的クローンの検出において,高度なLCMが優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-02T14:56:01Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。