論文の概要: Evaluating Small-Scale Code Models for Code Clone Detection
- arxiv url: http://arxiv.org/abs/2506.10995v1
- Date: Thu, 10 Apr 2025 07:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.447311
- Title: Evaluating Small-Scale Code Models for Code Clone Detection
- Title(参考訳): コードクローン検出のための小規模コードモデルの評価
- Authors: Jorge Martinez-Gil,
- Abstract要約: 本研究の目的は、コードペアをクローンまたは非クローンとして分類する際に、新しく導入されたいくつかの小さなコードモデルの性能を測定することである。
ほとんどのモデルは、精度、精度、リコール、F1スコアを含む標準メトリクスでよく機能した。
クローンのごく一部は、特にコードが似ているが異なる操作を行う場合、検出が難しいままである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting code clones is relevant to software maintenance and code refactoring. This challenge still presents unresolved cases, mainly when structural similarity does not reflect functional equivalence, though recent code models show promise. Therefore, this research aims to systematically measure the performance of several newly introduced small code models in classifying code pairs as clones or non-clones. The evaluation is based on five datasets: BigCloneBench, CodeJam, Karnalim, POJ104, and PoolC, as well as six code models: CodeBERT, GraphCodeBERT, Salesforce T5, UniXCoder, PLBART, and Polycoder. Most models performed well across standard metrics, including accuracy, precision, recall, and F1-score. However, a marginal fraction of clones remains challenging to detect, especially when the code looks similar but performs different operations. The source code that illustrates our approach is available at: https://github.com/jorge-martinez-gil/small-code-models
- Abstract(参考訳): コードクローンの検出は、ソフトウェアのメンテナンスとコードのリファクタリングに関係している。
この課題は、主に構造的類似性が機能的同値性を反映していない場合に、未解決のケースを提示するが、最近のコードモデルは、将来性を示している。
そこで本研究では,コードペアをクローンあるいは非クローンとして分類する際に,新たに導入されたいくつかの小型コードモデルの性能を体系的に測定することを目的とする。
評価はBigCloneBench, CodeJam, Karnalim, POJ104, PoolCの5つのデータセットに加えて,CodeBERT, GraphCodeBERT, Salesforce T5, UniXCoder, PLBART, Polycoderの6つのコードモデルに基づいている。
ほとんどのモデルは、精度、精度、リコール、F1スコアを含む標準メトリクスでよく機能した。
しかし、クローンのごく一部は、特にコードが似ているが異なる操作を実行する場合、検出が難しいままである。
私たちのアプローチを説明するソースコードは、https://github.com/jorge-martinez-gil/small-code-models.comで公開されている。
関連論文リスト
- Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Generalizability of Code Clone Detection on CodeBERT [0.0]
CodeBERTのようなトランスフォーマーネットワークは、ベンチマークデータセットのコードクローン検出において、すでに優れた結果が得られている。
我々は、BigCloneBenchからJavaコードクローンの2つの異なるサブセットを評価することで、CodeBERTの一般化性が低下することを示す。
論文 参考訳(メタデータ) (2022-08-26T11:24:20Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。