論文の概要: Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection
- arxiv url: http://arxiv.org/abs/2309.02182v1
- Date: Tue, 5 Sep 2023 12:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 09:02:55.940534
- Title: Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection
- Title(参考訳): 最寄りのbertベースアプローチによるスケーラブルクローン検出
- Authors: Muslim Chochlov (1), Gul Aftab Ahmed (2), James Vincent Patten (1),
Guoxian Lu (3), Wei Hou (4), David Gregg (2), Jim Buckley (1) ((1) Deptment
of Computer Science and Information Systems, University of Limerick, Ireland,
(2) Deptment of Computer Science, Trinity College Dublin, Ireland, (3) WN
Digital IPD and Trustworthiness Enabling, Huawei Technologies Co., Ltd.,
Shanghai, China, (4) Huawei Vulnerability Management Center, Huawei
Technologies Co., Ltd., Shenzhen, Guangdong, China)
- Abstract要約: SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code clones can detrimentally impact software maintenance and manually
detecting them in very large codebases is impractical. Additionally, automated
approaches find detection of Type 3 and Type 4 (inexact) clones very
challenging. While the most recent artificial deep neural networks (for example
BERT-based artificial neural networks) seem to be highly effective in detecting
such clones, their pairwise comparison of every code pair in the target
system(s) is inefficient and scales poorly on large codebases.
We therefore introduce SSCD, a BERT-based clone detection approach that
targets high recall of Type 3 and Type 4 clones at scale (in line with our
industrial partner's requirements). It does so by computing a representative
embedding for each code fragment and finding similar fragments using a nearest
neighbour search. SSCD thus avoids the pairwise-comparison bottleneck of other
Neural Network approaches while also using parallel, GPU-accelerated search to
tackle scalability.
This paper details the approach and an empirical assessment towards
configuring and evaluating that approach in industrial setting. The
configuration analysis suggests that shorter input lengths and text-only based
neural network models demonstrate better efficiency in SSCD, while only
slightly decreasing effectiveness. The evaluation results suggest that SSCD is
more effective than state-of-the-art approaches like SAGA and SourcererCC. It
is also highly efficient: in its optimal setting, SSCD effectively locates
clones in the entire 320 million LOC BigCloneBench (a standard clone detection
benchmark) in just under three hours.
- Abstract(参考訳): コードクローンはソフトウェアのメンテナンスに有害に影響を与え、非常に大きなコードベースで手動で検出することは非現実的です。
さらに、自動的なアプローチでは、Type 3とType 4のクローンの検出は非常に困難である。
最新の人工深層ニューラルネットワーク(例えばBERTベースの人工ニューラルネットワーク)は、そのようなクローンを検出するのに非常に効果的であるように見えるが、ターゲットシステム内のすべてのコードペアのペア比較は非効率で、大規模なコードベースではスケールが不十分である。
そこで我々は,BERTベースのクローン検出手法であるSSCDを導入し,大規模にType 3とType 4のクローンをリコールすることを目的とした(当社の産業パートナーの要求に応じて)。
これにより、各コードフラグメントに対する代表埋め込みを計算し、最寄りのサーチを使用して類似のフラグメントを見つける。
SSCDは、他のニューラルネットワークアプローチのペアワイズ比較ボトルネックを回避すると同時に、並列GPUアクセラレーション検索を使用してスケーラビリティに対処する。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
構成分析では、短い入力長とテキストのみベースのニューラルネットワークモデルにより、SSCDの効率は向上するが、効率はわずかに低下する。
評価結果は,SAGAやSourcererCCのような最先端アプローチよりもSSCDの方が有効であることが示唆された。
最適設定では、sscdは3億2000万locのbigclonebench(標準クローン検出ベンチマーク)のクローンを3時間以内で効果的に配置する。
関連論文リスト
- CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:02:07Z) - Using Ensemble Inference to Improve Recall of Clone Detection [0.0]
大規模なソースコードクローン検出は難しい課題である。
我々は、最先端のニューラルネットワークモデル4つを採用し、それらを個別に/または組み合わせて評価する。
その結果、およそ5万行のC/C++コードからなるイラストレーションデータセット上で、アンサンブル推論は、すべての試行ケースで個々のモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T09:44:59Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection [12.794933981621941]
ほとんどのニューラルクローン検出方法は、トレーニングデータセットに現れるクローンの範囲を超えて一般化しない。
一般化可能なニューラルクローン検出のための抽象構文木(AST)を用いたアプローチを提案する。
実験の結果,ASTROはリコールとF-1スコアの両方において最先端のニューラルクローン検出アプローチを改善していることがわかった。
論文 参考訳(メタデータ) (2022-08-17T04:50:51Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。