論文の概要: GPTCloneBench: A comprehensive benchmark of semantic clones and
cross-language clones using GPT-3 model and SemanticCloneBench
- arxiv url: http://arxiv.org/abs/2308.13963v2
- Date: Fri, 1 Sep 2023 17:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:37:47.938198
- Title: GPTCloneBench: A comprehensive benchmark of semantic clones and
cross-language clones using GPT-3 model and SemanticCloneBench
- Title(参考訳): GPTCloneBench: GPT-3モデルとSemanticCloneBenchを用いたセマンティッククローンとクロス言語クローンの総合ベンチマーク
- Authors: Ajmain Inqiad Alam, Palash Ranjan Roy, Farouq Al-omari, Chanchal Kumar
Roy, Banani Roy, Kevin Schneider
- Abstract要約: 本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンと言語間クローンベンチマークGPTCloneBenchを提案する。
GPT-3出力の79,928個のクローンペアから、37,149個の真のセマンティッククローンペア、19,288個の偽セマンティックペア(Type-1/Type-2)、および4言語(Java、C、C#、Python)にわたる20,770個のクロス言語クローンのベンチマークを作成しました。
- 参考スコア(独自算出の注目度): 1.8687918300580921
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of Machine Learning, there has been a surge in leveraging
its capabilities for problem-solving across various domains. In the code clone
realm, the identification of type-4 or semantic clones has emerged as a crucial
yet challenging task. Researchers aim to utilize Machine Learning to tackle
this challenge, often relying on the BigCloneBench dataset. However, it's worth
noting that BigCloneBench, originally not designed for semantic clone
detection, presents several limitations that hinder its suitability as a
comprehensive training dataset for this specific purpose. Furthermore, CLCDSA
dataset suffers from a lack of reusable examples aligning with real-world
software systems, rendering it inadequate for cross-language clone detection
approaches. In this work, we present a comprehensive semantic clone and
cross-language clone benchmark, GPTCloneBench by exploiting SemanticCloneBench
and OpenAI's GPT-3 model. In particular, using code fragments from
SemanticCloneBench as sample inputs along with appropriate prompt engineering
for GPT-3 model, we generate semantic and cross-language clones for these
specific fragments and then conduct a combination of extensive manual analysis,
tool-assisted filtering, functionality testing and automated validation in
building the benchmark. From 79,928 clone pairs of GPT-3 output, we created a
benchmark with 37,149 true semantic clone pairs, 19,288 false semantic
pairs(Type-1/Type-2), and 20,770 cross-language clones across four languages
(Java, C, C#, and Python). Our benchmark is 15-fold larger than
SemanticCloneBench, has more functional code examples for software systems and
programming language support than CLCDSA, and overcomes BigCloneBench's
qualities, quantification, and language variety limitations.
- Abstract(参考訳): 機械学習の出現により、さまざまな領域にわたる問題解決にその能力を活用することが急増した。
コードクローンの領域では、タイプ4またはセマンティッククローンの識別が決定的に難しいタスクとして現れている。
研究者は機械学習を使ってこの課題に取り組み、BigCloneBenchデータセットに依存することが多い。
しかし、bigclonebenchは元々セマンティッククローン検出用に設計されていないが、この特定の目的のために総合的なトレーニングデータセットとして適合性を妨げるいくつかの制限がある。
さらに、CLCDSAデータセットは、実世界のソフトウェアシステムと整合した再利用可能な例が欠如しており、言語間のクローン検出アプローチでは不十分である。
本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンとクロス言語クローンベンチマークGPTCloneBenchを提案する。
特に、semanticclonebenchのコードフラグメントをサンプル入力として、gpt-3モデルの適切なプロンプトエンジニアリングとともに、これらの特定のフラグメントのためのセマンティックおよびクロス言語クローンを生成し、広範な手動分析、ツール支援フィルタリング、機能テスト、ベンチマーク構築における自動検証を組み合わせて実施する。
79,928組のgpt-3出力から,37,149の真意味クローンペア,19,288の偽意味ペア(type-1/type-2),20,770の言語間クローン(java,c,c#,python)を用いたベンチマークを作成した。
我々のベンチマークはSemanticCloneBenchよりも15倍大きく、CLCDSAよりもソフトウェアシステムやプログラミング言語サポートのコード例が多く、BigCloneBenchの品質、定量化、言語多様性の制限を克服しています。
関連論文リスト
- On the Use of Deep Learning Models for Semantic Clone Detection [4.796947520072581]
既存のベンチマークデータセットを利用した5つの最先端クローン検出モデルに対する多段階評価手法を提案する。
具体的には,BigCloneBench,SemanticCloneBench,GPTCloneBenchの3つの高性能単一言語モデル(ASTNN,GMN,CodeBERT)について検討する。
単一言語モデルはBigCloneBenchのF1スコアが高いが、SemanticCloneBenchのパフォーマンスは20%まで異なる。
興味深いことに、クロス言語モデル(C4)は他のモデルよりもSemanticCloneBenchの方が優れたパフォーマンス(約7%)を示している。
論文 参考訳(メタデータ) (2024-12-19T11:15:02Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Unveiling the potential of large language models in generating semantic
and cross-language clones [8.791710193028905]
OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。
セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。
論文 参考訳(メタデータ) (2023-09-12T17:40:49Z) - ZC3: Zero-Shot Cross-Language Code Clone Detection [79.53514630357876]
ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。
ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
論文 参考訳(メタデータ) (2023-08-26T03:48:10Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - Partial Network Cloning [58.83278629019384]
PNCはソースネットワークから部分パラメトリックの「クローズニング」を実行し、クローン化されたモジュールをターゲットに注入する。
本手法はパラメータ調整法と比較して精度が5%向上し,局所性が50%向上した。
論文 参考訳(メタデータ) (2023-03-19T08:20:31Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。