論文の概要: Using Ensemble Inference to Improve Recall of Clone Detection
- arxiv url: http://arxiv.org/abs/2402.07523v1
- Date: Mon, 12 Feb 2024 09:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:57:43.212591
- Title: Using Ensemble Inference to Improve Recall of Clone Detection
- Title(参考訳): アンサンブル推論を用いたクローン検出のリコール改善
- Authors: Gul Aftab Ahmed, James Vincent Patten, Yuanhua Han, Guoxian Lu, David
Gregg, Jim Buckley, Muslim Chochlov
- Abstract要約: 大規模なソースコードクローン検出は難しい課題である。
我々は、最先端のニューラルネットワークモデル4つを採用し、それらを個別に/または組み合わせて評価する。
その結果、およそ5万行のC/C++コードからなるイラストレーションデータセット上で、アンサンブル推論は、すべての試行ケースで個々のモデルよりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale source-code clone detection is a challenging task. In our
previous work, we proposed an approach (SSCD) that leverages artificial neural
networks and approximates nearest neighbour search to effectively and
efficiently locate clones in large-scale bodies of code, in a time-efficient
manner. However, our literature review suggests that the relative efficacy of
differing neural network models has not been assessed in the context of
large-scale clone detection approaches. In this work, we aim to assess several
such models individually, in terms of their potential to maximize recall, while
preserving a high level of precision during clone detection. We investigate if
ensemble inference (in this case, using the results of more than one of these
neural network models in combination) can further assist in this task.
To assess this, we employed four state-of-the-art neural network models and
evaluated them individually/in combination. The results, on an illustrative
dataset of approximately 500K lines of C/C++ code, suggest that ensemble
inference outperforms individual models in all trialled cases, when recall is
concerned. Of individual models, the ADA model (belonging to the ChatGPT family
of models) has the best performance. However commercial companies may not be
prepared to hand their proprietary source code over to the cloud, as required
by that approach. Consequently, they may be more interested in an
ensemble-combination of CodeBERT-based and CodeT5 models, resulting in similar
(if slightly lesser) recall and precision results.
- Abstract(参考訳): 大規模なソースコードクローン検出は難しい課題である。
これまでの研究では,ニューラルネットワークを活用し,近接探索を近似するアプローチ (sscd) を提案し,大規模コードのクローンを時間効率良く探索する手法を提案した。
しかし,本論文では,異なるニューラルネットワークモデルの相対的有効性が,大規模クローン検出手法の文脈で評価されていないことを示唆する。
本研究では,クローン検出時に高い精度を保ちながら,リコールを最大化する可能性の観点から,個別に複数のモデルを評価することを目的とする。
アンサンブル推論(この場合、これらのニューラルネットワークモデルのうちの1つ以上の結果を用いて)が、このタスクをさらに補助できるかどうかを検討する。
これを評価するために,我々は4つの最先端ニューラルネットワークモデルを採用し,それらを個別/組み合わせで評価した。
その結果、約500万行のc/c++コードの例示データセット上では、リコールが考慮される場合、アンサンブル推論がすべての試行されたケースで個々のモデルを上回ることを示唆する。
個々のモデルにおいて、adaモデル(chatgptファミリのモデル)は最高の性能を持つ。
しかし、商用企業は、そのアプローチで要求されるように、独自のソースコードをクラウドに渡す準備ができていないかもしれない。
結果として、彼らはCodeBERTベースとCodeT5モデルのアンサンブル・コンビネーションに興味を持ち、結果としてリコールと精度が類似している。
関連論文リスト
- Variational autoencoder-based neural network model compression [4.992476489874941]
変分オートエンコーダ(VAE)は、深部生成モデルの一種であり、近年広く使われている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
論文 参考訳(メタデータ) (2024-08-25T09:06:22Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文 参考訳(メタデータ) (2023-09-05T12:38:55Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Window-Based Early-Exit Cascades for Uncertainty Estimation: When Deep
Ensembles are More Efficient than Single Models [5.0401589279256065]
アンサンブルは、アーキテクチャファミリ内の単一モデルをスケーリングするよりも、より計算的に(推論において)効率的であることを示す。
本研究では,不確実性推定に関連する課題に対して,これらの効率性の向上について検討する。
多数のネットワークアーキテクチャおよび不確実性タスクにわたるImageNetスケールデータの実験により、提案したウィンドウベースの早期実行アプローチは、より優れた不確実性計算トレードオフを実現することができることを示す。
論文 参考訳(メタデータ) (2023-03-14T15:57:54Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Deep Generative model with Hierarchical Latent Factors for Time Series
Anomaly Detection [40.21502451136054]
本研究は、時系列異常検出のための新しい生成モデルであるDGHLを提示する。
トップダウンの畳み込みネットワークは、新しい階層的な潜在空間を時系列ウィンドウにマッピングし、時間ダイナミクスを利用して情報を効率的にエンコードする。
提案手法は,4つのベンチマーク・データセットにおいて,現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-02-15T17:19:44Z) - Multi-fidelity regression using artificial neural networks: efficient
approximation of parameter-dependent output quantities [0.17499351967216337]
本稿では,多元性回帰問題に対するニューラルネットワークの利用について述べる。
導入されたモデルは、従来のマルチファイアリティスキームと比較されます。
また、工学的問題に対するマルチファイダリグレッションの適用も示します。
論文 参考訳(メタデータ) (2021-02-26T11:29:00Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。