論文の概要: Source Code Clone Detection Using Unsupervised Similarity Measures
- arxiv url: http://arxiv.org/abs/2401.09885v2
- Date: Fri, 19 Jan 2024 07:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:15:58.155546
- Title: Source Code Clone Detection Using Unsupervised Similarity Measures
- Title(参考訳): 教師なし類似度尺度を用いたソースコードクローン検出
- Authors: Jorge Martinez-Gil
- Abstract要約: 本研究は,ソースコードのクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing similarity in source code has gained significant attention in
recent years due to its importance in software engineering tasks such as clone
detection and code search and recommendation. This work presents a comparative
analysis of unsupervised similarity measures for identifying source code clone
detection. The goal is to overview the current state-of-the-art techniques,
their strengths, and weaknesses. To do that, we compile the existing
unsupervised strategies and evaluate their performance on a benchmark dataset
to guide software engineers in selecting appropriate methods for their specific
use cases. The source code of this study is available at
https://github.com/jorge-martinez-gil/codesim
- Abstract(参考訳): 近年,クローン検出やコード検索,レコメンデーションといったソフトウェア工学タスクの重要性から,ソースコードの類似性の評価が注目されている。
本研究はソースコードクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
そのため、既存の教師なし戦略をコンパイルし、ベンチマークデータセットでパフォーマンスを評価することで、ソフトウェアエンジニアが特定のユースケースに適した方法を選択するようにガイドします。
この研究のソースコードはhttps://github.com/jorge-martinez-gil/codesimで入手できる。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Malicious Source Code Detection Using Transformer [0.0]
本稿では,トランスフォーマー(MSDT)アルゴリズムを用いたMalicious Source code Detectionを提案する。
MSDTは、ソースコードパッケージへの実世界のコードインジェクションケースを検出するディープラーニング手法に基づく、新しい静的解析である。
我々のアルゴリズムは、悪意のあるコードで注入された関数を精度@kで最大0.909の精度で検出できる。
論文 参考訳(メタデータ) (2022-09-16T14:16:50Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Code Clone Detection based on Event Embedding and Event Dependency [7.652540019496754]
本稿では,意味的類似性に基づくコードクローン検出手法を提案する。
連続的に発生する一連の相互依存イベントとしてコードを扱うことにより、コードの意味情報をエンコードするモデル、EDAMを設計する。
実験の結果,我々のEDAMモデルは,コードクローン検出のための最先端のオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-28T15:50:15Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。