Fugu-MT 論文翻訳(概要): Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey

論文の概要: Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey

arxiv url: http://arxiv.org/abs/2308.01191v3
Date: Sun, 6 Aug 2023 01:40:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 15:28:58.986368
Title: Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey
Title（参考訳）: コードクローン検出における大規模言語モデルの能力理解に向けた調査
Authors: Shihan Dou, Junjie Shan, Haoxiang Jia, Wenhao Deng, Zhiheng Xi, Wei He, Yueming Wu, Tao Gui, Yang Liu, Xuanjing Huang
Abstract要約: 大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。本稿では,クローン検出のためのLLMを包括的に評価し,異なるクローンタイプ,言語,プロンプトを網羅する。従来の手法を超越した複雑な意味的クローンの検出において,高度なLCMが優れていることがわかった。
参考スコア（独自算出の注目度）: 40.99060616674878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code cloning, the duplication of code fragments, is common in software development. While some reuse aids productivity, excessive cloning hurts maintainability and introduces bugs. Hence, automatic code clone detection is vital. Meanwhile, large language models (LLMs) possess diverse code-related knowledge, making them versatile for various software engineering challenges. However, LLMs' performance in code clone detection is unclear and needs more study for accurate assessment. In this paper, we provide the first comprehensive evaluation of LLMs for clone detection, covering different clone types, languages, and prompts. We find advanced LLMs excel in detecting complex semantic clones, surpassing existing methods. Adding intermediate reasoning steps via chain-of-thought prompts noticeably enhances performance. Additionally, representing code as vector embeddings, especially with text encoders, effectively aids clone detection.Lastly, the ability of LLMs to detect code clones differs among various programming languages. Our study suggests that LLMs have potential for clone detection due to their language capabilities, offering insights for developing robust LLM-based methods to enhance software engineering.
Abstract（参考訳）: コードのクローン(コードフラグメントの重複)はソフトウェア開発で一般的である。一部の再利用は生産性を補助するが、過剰なクローン化は保守性を傷つけ、バグをもたらす。したがって、自動コードクローン検出が不可欠である。一方、大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。しかし、コードクローン検出におけるLLMの性能は不明確であり、正確な評価のためのさらなる研究が必要である。本稿では,クローン検出のためのLLMの包括的評価を行い,異なるクローンタイプ,言語,プロンプトについて述べる。高度なllmは複雑なセマンティクスクローンの検出に優れており、既存の手法を上回っています。チェーン・オブ・シークレットによる中間推論ステップの追加は、パフォーマンスを著しく向上させる。さらに、特にテキストエンコーダによるベクトル埋め込みとしてコードを表現することは、クローン検出を効果的に支援するが、LLMがコードクローンを検出する能力は、様々なプログラミング言語で異なる。本研究は,LLMが言語能力からクローン検出の可能性を示唆し,ソフトウェア工学を向上する堅牢なLCM手法を開発するための洞察を提供する。

関連論文リスト

HyClone: Bridging LLM Understanding and Dynamic Execution for Semantic Code Clone Detection [3.2167919219391474]
コードクローン検出(Code clone detection)は、ソフトウェア工学において重要なタスクであり、ソフトウェアシステム内の重複や類似のコードフラグメントを識別することを目的としている。大規模言語モデル(LLM)の最近の進歩は、コードセマンティクスの理解において有望であることを示している。 LLMに基づくスクリーニングと,Pythonプログラムのセマンティッククローンを検出するための実行ベースの検証を組み合わせた,新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-02T13:11:56Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Detection of LLM-Paraphrased Code and Identification of the Responsible LLM Using Coding Style Features [5.774786149181392]
Aliciousのユーザは、大きな言語モデル(LLM)を使って、オリジナルのものとよく似ているプロプライエタリなコードのパラフレーズ付きバージョンを生成することができる。 LPcodedecは人書きとLLM生成コード間のパラフレーズ関係を識別する手法である。 LPcodedecは2つのタスクで最高のベースラインを達成し、F1スコアは2.64%、F1スコアは15.17%向上し、それぞれ1,343xと213xのスピードアップを達成した。
論文参考訳（メタデータ） (2025-02-25T00:58:06Z)
Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。 ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文参考訳（メタデータ） (2024-09-10T03:08:33Z)
Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文参考訳（メタデータ） (2024-08-08T12:57:14Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。 GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文参考訳（メタデータ） (2024-07-02T16:20:44Z)
Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。 LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文参考訳（メタデータ） (2024-04-30T08:51:49Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。 5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文参考訳（メタデータ） (2023-11-13T12:20:48Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
Evaluation of Contrastive Learning with Various Code Representations for Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。 CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-17T12:25:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。