論文の概要: Investigating the Efficacy of Large Language Models for Code Clone
Detection
- arxiv url: http://arxiv.org/abs/2401.13802v2
- Date: Sat, 27 Jan 2024 04:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 20:01:35.153002
- Title: Investigating the Efficacy of Large Language Models for Code Clone
Detection
- Title(参考訳): コードクローン検出における大規模言語モデルの有効性の検討
- Authors: Mohamad Khajezade, Jie JW Wu, Fatemeh Hendijani Fard, Gema
Rodr\'iguez-P\'erez, Mohamed Sami Shehata
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理やソフトウェア工学タスクにおいて顕著な成功を収めている。
本研究では,コードクローン検出(CCD)におけるLCMの適用性を検討した。
ChatGPTは、F1スコア0.877のクロスランゲージCCDのベースラインを超え、モノリンガルCCDの完全な微調整モデルに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 2.0749231618270803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable success in various
natural language processing and software engineering tasks, such as code
generation. The LLMs are mainly utilized in the prompt-based zero/few-shot
paradigm to guide the model in accomplishing the task. GPT-based models are one
of the popular ones studied for tasks such as code comment generation or test
generation. These tasks are `generative' tasks. However, there is limited
research on the usage of LLMs for `non-generative' tasks such as classification
using the prompt-based paradigm. In this preliminary exploratory study, we
investigated the applicability of LLMs for Code Clone Detection (CCD), a
non-generative task. By building a mono-lingual and cross-lingual CCD dataset
derived from CodeNet, we first investigated two different prompts using ChatGPT
to detect Type-4 code clones in Java-Java and Java-Ruby pairs in a zero-shot
setting. We then conducted an analysis to understand the strengths and
weaknesses of ChatGPT in CCD. ChatGPT surpasses the baselines in cross-language
CCD attaining an F1-score of 0.877 and achieves comparable performance to fully
fine-tuned models for mono-lingual CCD, with an F1-score of 0.878. Also, the
prompt and the difficulty level of the problems has an impact on the
performance of ChatGPT. Finally we provide insights and future directions based
on our initial analysis
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成など様々な自然言語処理やソフトウェア工学タスクにおいて顕著な成功を収めている。
llmは主にプロンプトベースのzero/few-shotパラダイムで使われ、タスクの達成をモデルに導く。
GPTベースのモデルは、コードコメント生成やテスト生成といったタスクのために研究されている人気モデルの1つである。
これらのタスクは‘生成’タスクです。
しかし、プロンプトベースパラダイムを用いた分類のような「非生成的」なタスクにおけるLLMの使用に関する限定的な研究がある。
本研究では,非生成タスクであるコードクローン検出(ccd)におけるllmの適用性について検討した。
CodeNetから派生した単言語および多言語CCDデータセットを構築することにより、まずChatGPTを使用して、ゼロショット設定でJava-JavaとJava-RubyペアのType-4コードクローンを検出する2つの異なるプロンプトを調査した。
CCDにおけるChatGPTの長所と短所を理解するために分析を行った。
ChatGPTは、F1スコアが0.877に達し、F1スコアが0.878であるモノリンガルCCDの完全微調整モデルに匹敵する性能を達成する。
また,ChatGPTの性能には,問題のプロンプトや難易度が影響している。
最後に、初期分析に基づく洞察と今後の方向性を提供する。
関連論文リスト
- Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - Stay on topic with Classifier-Free Guidance [57.28934343207042]
CFGは純粋言語モデリングにおける推論時手法として広く利用できることを示す。
CFG は Pythia, GPT-2 および LLaMA ファミリーモデルの性能をタスクの配列にわたって改善することを示す。
論文 参考訳(メタデータ) (2023-06-30T17:07:02Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Comparative Analysis of CHATGPT and the evolution of language models [0.0]
本稿では,機械翻訳,機械要約,質問応答,言語生成など,NLPにおける一般的な考え方を紹介する。
大規模言語モデルの安全な大規模導入例として,ChatGPTの議論と結果を検証するための戦略をまとめて提示する。
論文 参考訳(メタデータ) (2023-03-28T03:11:28Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Rationale-Guided Few-Shot Classification to Detect Abusive Language [5.977278650516324]
乱用言語検出のためのRGFS(Rationale-Guided Few-Shot Classification)を提案する。
2つの理性統合BERTアーキテクチャ(RGFSモデル)を導入し、5つの異なる乱用言語データセット上でシステムを評価する。
論文 参考訳(メタデータ) (2022-11-30T14:47:14Z) - Evaluating few shot and Contrastive learning Methods for Code Clone
Detection [5.1623866691702744]
コードクローン検出(Code Clone Detection)は、盗作検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。
ディープラーニングベースのモデルは、CodeXGLUEベンチマークで$sim$95%のF1スコア(分類器の評価に用いられる指標)を達成した。
注釈付きデータが限られているこれらのモデルの一般化性を評価する以前の研究はない。
論文 参考訳(メタデータ) (2022-04-15T15:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。