Fugu-MT 論文翻訳(概要): GPTCloneBench: A comprehensive benchmark of semantic clones and cross-language clones using GPT-3 model and SemanticCloneBench

論文の概要: GPTCloneBench: A comprehensive benchmark of semantic clones and cross-language clones using GPT-3 model and SemanticCloneBench

arxiv url: http://arxiv.org/abs/2308.13963v2
Date: Fri, 1 Sep 2023 17:44:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 12:37:47.938198
Title: GPTCloneBench: A comprehensive benchmark of semantic clones and cross-language clones using GPT-3 model and SemanticCloneBench
Title（参考訳）: GPTCloneBench: GPT-3モデルとSemanticCloneBenchを用いたセマンティッククローンとクロス言語クローンの総合ベンチマーク
Authors: Ajmain Inqiad Alam, Palash Ranjan Roy, Farouq Al-omari, Chanchal Kumar Roy, Banani Roy, Kevin Schneider
Abstract要約: 本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンと言語間クローンベンチマークGPTCloneBenchを提案する。 GPT-3出力の79,928個のクローンペアから、37,149個の真のセマンティッククローンペア、19,288個の偽セマンティックペア(Type-1/Type-2)、および4言語(Java、C、C#、Python)にわたる20,770個のクロス言語クローンのベンチマークを作成しました。
参考スコア（独自算出の注目度）: 1.8687918300580921
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the emergence of Machine Learning, there has been a surge in leveraging its capabilities for problem-solving across various domains. In the code clone realm, the identification of type-4 or semantic clones has emerged as a crucial yet challenging task. Researchers aim to utilize Machine Learning to tackle this challenge, often relying on the BigCloneBench dataset. However, it's worth noting that BigCloneBench, originally not designed for semantic clone detection, presents several limitations that hinder its suitability as a comprehensive training dataset for this specific purpose. Furthermore, CLCDSA dataset suffers from a lack of reusable examples aligning with real-world software systems, rendering it inadequate for cross-language clone detection approaches. In this work, we present a comprehensive semantic clone and cross-language clone benchmark, GPTCloneBench by exploiting SemanticCloneBench and OpenAI's GPT-3 model. In particular, using code fragments from SemanticCloneBench as sample inputs along with appropriate prompt engineering for GPT-3 model, we generate semantic and cross-language clones for these specific fragments and then conduct a combination of extensive manual analysis, tool-assisted filtering, functionality testing and automated validation in building the benchmark. From 79,928 clone pairs of GPT-3 output, we created a benchmark with 37,149 true semantic clone pairs, 19,288 false semantic pairs(Type-1/Type-2), and 20,770 cross-language clones across four languages (Java, C, C#, and Python). Our benchmark is 15-fold larger than SemanticCloneBench, has more functional code examples for software systems and programming language support than CLCDSA, and overcomes BigCloneBench's qualities, quantification, and language variety limitations.
Abstract（参考訳）: 機械学習の出現により、さまざまな領域にわたる問題解決にその能力を活用することが急増した。コードクローンの領域では、タイプ4またはセマンティッククローンの識別が決定的に難しいタスクとして現れている。研究者は機械学習を使ってこの課題に取り組み、BigCloneBenchデータセットに依存することが多い。しかし、bigclonebenchは元々セマンティッククローン検出用に設計されていないが、この特定の目的のために総合的なトレーニングデータセットとして適合性を妨げるいくつかの制限がある。さらに、CLCDSAデータセットは、実世界のソフトウェアシステムと整合した再利用可能な例が欠如しており、言語間のクローン検出アプローチでは不十分である。本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンとクロス言語クローンベンチマークGPTCloneBenchを提案する。特に、semanticclonebenchのコードフラグメントをサンプル入力として、gpt-3モデルの適切なプロンプトエンジニアリングとともに、これらの特定のフラグメントのためのセマンティックおよびクロス言語クローンを生成し、広範な手動分析、ツール支援フィルタリング、機能テスト、ベンチマーク構築における自動検証を組み合わせて実施する。 79,928組のgpt-3出力から,37,149の真意味クローンペア,19,288の偽意味ペア(type-1/type-2),20,770の言語間クローン(java,c,c#,python)を用いたベンチマークを作成した。我々のベンチマークはSemanticCloneBenchよりも15倍大きく、CLCDSAよりもソフトウェアシステムやプログラミング言語サポートのコード例が多く、BigCloneBenchの品質、定量化、言語多様性の制限を克服しています。

関連論文リスト

VisCoder2: Building Multi-Language Visualization Coding Agents [63.63232038173407]
可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。 VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
論文参考訳（メタデータ） (2025-10-24T18:03:57Z)
How the Misuse of a Dataset Harmed Semantic Clone Detection [0.9361474110798144]
本稿では,BigCloneBenchが意味的コードの類似性を学習したり評価したりする上で,基礎的真理として用いることが問題であることを示す。 BigCloneBenchをデータセットとして使用する179の論文の文献レビューで、BigCloneBenchを使用してセマンティッククローン検出を評価する139の論文を発見した。 BigCloneBenchの使用は、Type-1、Type-2、Type-3クローンの構文的またはテキスト的クローン検出を評価する目的のために有効である、と強調する。
論文参考訳（メタデータ） (2025-05-07T10:52:28Z)
On the Use of Deep Learning Models for Semantic Clone Detection [4.796947520072581]
既存のベンチマークデータセットを利用した5つの最先端クローン検出モデルに対する多段階評価手法を提案する。具体的には,BigCloneBench,SemanticCloneBench,GPTCloneBenchの3つの高性能単一言語モデル(ASTNN,GMN,CodeBERT)について検討する。単一言語モデルはBigCloneBenchのF1スコアが高いが、SemanticCloneBenchのパフォーマンスは20%まで異なる。興味深いことに、クロス言語モデル(C4)は他のモデルよりもSemanticCloneBenchの方が優れたパフォーマンス(約7%)を示している。
論文参考訳（メタデータ） (2024-12-19T11:15:02Z)
Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文参考訳（メタデータ） (2024-08-08T12:57:14Z)
Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。 GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文参考訳（メタデータ） (2024-07-02T16:20:44Z)
AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。 5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文参考訳（メタデータ） (2023-11-13T12:20:48Z)
Unveiling the potential of large language models in generating semantic and cross-language clones [8.791710193028905]
OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。
論文参考訳（メタデータ） (2023-09-12T17:40:49Z)
ZC3: Zero-Shot Cross-Language Code Clone Detection [79.53514630357876]
ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。 ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
論文参考訳（メタデータ） (2023-08-26T03:48:10Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
CCT-Code: Cross-Consistency Training for Multilingual Clone Detection and Code Search [4.192584020959536]
我々は、多言語クローン検出問題を定式化し、CodeForcesの送信データセットから生成された新しいベンチマークデータセットであるXCDを提示する。我々は、異なるプログラミング言語のソースコード上で、言語モデルをトレーニングするために、クロス一貫性トレーニング(CCT)と呼ばれる新しいトレーニング手順を提案する。結果として得られたCCT-LMモデルは、POJ-104クローン検出ベンチマークで95.67%のMAPとAdvTestコード検索ベンチマークで47.18%のMRRで既存のアプローチより優れている。
論文参考訳（メタデータ） (2023-05-19T12:09:49Z)
Partial Network Cloning [58.83278629019384]
PNCはソースネットワークから部分パラメトリックの「クローズニング」を実行し、クローン化されたモジュールをターゲットに注入する。本手法はパラメータ調整法と比較して精度が5%向上し,局所性が50%向上した。
論文参考訳（メタデータ） (2023-03-19T08:20:31Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)
Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文参考訳（メタデータ） (2020-08-11T17:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。