論文の概要: Generalizability of Code Clone Detection on CodeBERT
- arxiv url: http://arxiv.org/abs/2208.12588v1
- Date: Fri, 26 Aug 2022 11:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:40:04.507477
- Title: Generalizability of Code Clone Detection on CodeBERT
- Title(参考訳): CodeBERTにおけるコードクローン検出の一般化可能性
- Authors: Tim Sonnekalb, Bernd Gruner, Clemens-Alexander Brust, Patrick M\"ader
- Abstract要約: CodeBERTのようなトランスフォーマーネットワークは、ベンチマークデータセットのコードクローン検出において、すでに優れた結果が得られている。
我々は、BigCloneBenchからJavaコードクローンの2つの異なるサブセットを評価することで、CodeBERTの一般化性が低下することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer networks such as CodeBERT already achieve outstanding results for
code clone detection in benchmark datasets, so one could assume that this task
has already been solved. However, code clone detection is not a trivial task.
Semantic code clones, in particular, are challenging to detect. We show that
the generalizability of CodeBERT decreases by evaluating two different subsets
of Java code clones from BigCloneBench. We observe a significant drop in F1
score when we evaluate different code snippets and functionality IDs than those
used for model building.
- Abstract(参考訳): CodeBERTのようなトランスフォーマーネットワークは、ベンチマークデータセットでコードクローン検出の優れた結果をすでに達成しているため、このタスクはすでに解決済みであると仮定できる。
しかし、コードクローン検出は簡単な作業ではない。
特にセマンティックコードクローンは検出が難しい。
我々は、BigCloneBenchからJavaコードクローンの2つの異なるサブセットを評価することで、CodeBERTの一般化性が低下することを示す。
モデル構築に使用するものと異なるコードスニペットと機能IDを評価すると、F1スコアが大幅に低下するのがわかります。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Gitor: Scalable Code Clone Detection by Building Global Sample Graph [11.041017540277558]
異なるコードサンプル間の基盤となる接続をキャプチャするGitorを提案する。
Gitorはコードクローンの検出の精度が高く、さまざまなサイズの入力の実行時間に優れています。
論文 参考訳(メタデータ) (2023-11-15T08:48:50Z) - Who Made This Copy? An Empirical Analysis of Code Clone Authorship [1.1512593234650217]
我々は,GitHubに保管されている153のApacheプロジェクトにおいて,Javaファイルの行レベルの粒度のコードクローンのオーサシップを分析した。
すべてのプロジェクトに対して,相当数のクローンラインがあることが分かりました。
クローン集合の3分の1は、主に複数の主要な著者によって貢献されている。
論文 参考訳(メタデータ) (2023-09-03T08:24:32Z) - GPTCloneBench: A comprehensive benchmark of semantic clones and
cross-language clones using GPT-3 model and SemanticCloneBench [1.8687918300580921]
本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンと言語間クローンベンチマークGPTCloneBenchを提案する。
GPT-3出力の79,928個のクローンペアから、37,149個の真のセマンティッククローンペア、19,288個の偽セマンティックペア(Type-1/Type-2)、および4言語(Java、C、C#、Python)にわたる20,770個のクロス言語クローンのベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-08-26T21:50:34Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Factorizers for Distributed Sparse Block Codes [62.38616784953048]
分散ブロック符号(SBC)は、固定ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。
主要な課題の1つは、可能なすべての組み合わせを探索することなく、そのようなデータ構造を構成要素に切り離し、あるいは分解することである。
GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - Detecting Code Clones with Graph Neural Networkand Flow-Augmented
Abstract Syntax Tree [30.484662671342935]
フロー拡張抽象構文木(FA-AST)と呼ばれるプログラムのグラフ表現を構築する。
FA-ASTに2種類のグラフニューラルネットワークを適用し、コードペアの類似性を計測する。
当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-02-20T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。