論文の概要: Semantic Clone Detection via Probabilistic Software Modeling
- arxiv url: http://arxiv.org/abs/2008.04891v2
- Date: Sat, 21 May 2022 15:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:02:00.087517
- Title: Semantic Clone Detection via Probabilistic Software Modeling
- Title(参考訳): 確率的ソフトウェアモデリングによる意味的クローン検出
- Authors: Hannes Thaller, Lukas Linsbauer, and Alexander Egyed
- Abstract要約: 本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
- 参考スコア(独自算出の注目度): 69.43451204725324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic clone detection is the process of finding program elements with
similar or equal runtime behavior. For example, detecting the semantic equality
between the recursive and iterative implementation of the factorial
computation. Semantic clone detection is the de facto technical boundary of
clone detectors. In recent years, this boundary has been tested using
interesting new approaches. This article contributes a semantic clone detection
approach that detects clones that have 0% syntactic similarity. We present
Semantic Clone Detection via Probabilistic Software Modeling (SCD-PSM) as a
stable and precise solution to semantic clone detection. PSM builds a
probabilistic model of a program that is capable of evaluating and generating
runtime data. SCD-PSM leverages this model and its model elements for finding
behaviorally equal model elements. This behavioral equality is then generalized
to semantic equality of the original program elements. It uses the likelihood
between model elements as a distance metric. Then, it employs the likelihood
ratio significance test to decide whether this distance is significant, given a
pre-specified and controllable false-positive rate. The output of SCD-PSM are
pairs of program elements (i.e., methods), their distance, and a decision on
whether they are clones or not. SCD-PSM yields excellent results with a
Matthews Correlation Coefficient greater than 0.9. These results are obtained
on classical semantic clone detection problems such as detecting recursive and
iterative versions of an algorithm, but also on complex problems used in coding
competitions.
- Abstract(参考訳): セマンティッククローン検出(Semantic clone detection)は、プログラム要素を同じまたは等しい実行動作で検出するプロセスである。
例えば、因子計算の帰納的および反復的な実装間の意味的等式を検出する。
意味的クローン検出は、事実上の技術的境界である。
近年、この境界は興味深い新しいアプローチでテストされている。
この記事では、構文的類似性0%のクローンを検出するセマンティッククローン検出手法を提案する。
本稿では,確率論的ソフトウェアモデリング(SCD-PSM)を用いた意味クローン検出手法を提案する。
PSMは実行時データの評価と生成が可能なプログラムの確率モデルを構築する。
SCD-PSMはこのモデルとそのモデル要素を利用して、振る舞いに等しいモデル要素を見つける。
この挙動等式は、元のプログラム要素の意味的等式に一般化される。
距離計量としてモデル要素間の可能性を用いる。
そして、予め特定され制御可能な偽陽性率から、この距離が有意かどうかを判定するために、確率比重み検定を用いる。
SCD-PSMの出力は、プログラム要素(すなわちメソッド)のペア、その距離、クローンかどうかの決定である。
scd-psmはマシューズ相関係数0.9以上の優れた結果が得られる。
これらの結果は、アルゴリズムの再帰的および反復的バージョンの検出のような古典的な意味的クローン検出問題だけでなく、符号化競合で使用される複雑な問題にもたらされる。
関連論文リスト
- Using Ensemble Inference to Improve Recall of Clone Detection [0.0]
大規模なソースコードクローン検出は難しい課題である。
我々は、最先端のニューラルネットワークモデル4つを採用し、それらを個別に/または組み合わせて評価する。
その結果、およそ5万行のC/C++コードからなるイラストレーションデータセット上で、アンサンブル推論は、すべての試行ケースで個々のモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T09:44:59Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Alternating Mahalanobis Distance Minimization for Stable and Accurate CP
Decomposition [4.847980206213335]
本稿では, テンソルの特異値とベクトルを導出するための新しい定式化を導入する。
このアルゴリズムのサブスウィープは、既知のランクの正確なCPDに対して超線形収束率を達成することができることを示す。
すると、アルゴリズムは各因子に対するマハラノビス距離を最適化するものであり、基底距離は他の因子に依存していると見なす。
論文 参考訳(メタデータ) (2022-04-14T19:56:36Z) - Sublinear Time Approximation of Text Similarity Matrices [50.73398637380375]
一般的なNystr"om法を不確定な設定に一般化する。
我々のアルゴリズムは任意の類似性行列に適用でき、行列のサイズでサブ線形時間で実行される。
本手法は,CUR分解の単純な変種とともに,様々な類似性行列の近似において非常によく機能することを示す。
論文 参考訳(メタデータ) (2021-12-17T17:04:34Z) - Code Clone Detection based on Event Embedding and Event Dependency [7.652540019496754]
本稿では,意味的類似性に基づくコードクローン検出手法を提案する。
連続的に発生する一連の相互依存イベントとしてコードを扱うことにより、コードの意味情報をエンコードするモデル、EDAMを設計する。
実験の結果,我々のEDAMモデルは,コードクローン検出のための最先端のオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-28T15:50:15Z) - A greedy reconstruction algorithm for the identification of spin
distribution [0.0]
確率分布の分数的定数近似の識別性は行列の可逆性に関係していることを示す。
このアルゴリズムは、この行列が特異行列からできるだけ遠くにあることを保証する、特定の制御を設計することを目的としている。
論文 参考訳(メタデータ) (2021-08-26T12:40:52Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。