論文の概要: StoneDetector: Conventional and versatile code clone detection for Java
- arxiv url: http://arxiv.org/abs/2508.03435v1
- Date: Tue, 05 Aug 2025 13:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.9789
- Title: StoneDetector: Conventional and versatile code clone detection for Java
- Title(参考訳): StoneDetector: Javaの従来型および汎用的なコードクローン検出
- Authors: Thomas S. Heinze, André Schäfer, Wolfram Amme,
- Abstract要約: StoneDetectorは、パスのテキスト比較に基づいて、従来のクローン検出アプローチを実装している。
StoneDetectorのJavaソースとBytecodeの両方でコードクローンを見つける際のパフォーマンスとスケーラビリティを示します。
- 参考スコア(独自算出の注目度): 0.5480144998735542
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Copy & paste is a widespread practice when developing software and, thus, duplicated and subsequently modified code occurs frequently in software projects. Since such code clones, i.e., identical or similar fragments of code, can bloat software projects and cause issues like bug or vulnerability propagation, their identification is of importance. In this paper, we present the StoneDetector platform and its underlying method for finding code clones in Java source and Bytecode. StoneDetector implements a conventional clone detection approach based upon the textual comparison of paths derived from the code's representation by dominator trees. In this way, the tool does not only find exact and syntactically similar near-miss code clones, but also code clones that are harder to detect due to their larger variety in the syntax. We demonstrate StoneDetector's versatility as a conventional clone detection platform and analyze its various available configuration parameters, including the usage of different string metrics, hashing algorithms, etc. In our exhaustive evaluation with other conventional clone detectors on several state-of-the-art benchmarks, we can show StoneDetector's performance and scalability in finding code clones in both, Java source and Bytecode.
- Abstract(参考訳): コピー&ペースト(copy & Paste)は、ソフトウェアを開発する際に広く使われるプラクティスであり、ソフトウェアプロジェクトでは、重複して修正されたコードが頻繁に発生する。
このようなコードクローン、すなわち同一または類似のコード断片は、ソフトウェアプロジェクトを肥大させ、バグや脆弱性の伝播などの問題を引き起こす可能性があるため、それらの識別は重要である。
本稿では,StoneDetector プラットフォームとその基盤となる Java ソースコードとBytecode のコードクローンを見つける方法を提案する。
StoneDetectorは、ドミネーターツリーによるコードの表現に由来するパスのテキスト比較に基づいて、従来のクローン検出アプローチを実装している。
このようにして、このツールは正確で構文的に類似したコードクローンを見つけるだけでなく、構文の多様性が大きいために検出が難しいコードクローンも見つけることができる。
StoneDetectorの従来のクローン検出プラットフォームとしての汎用性を実証し、さまざまな文字列メトリクスの使用やハッシュアルゴリズムなど、利用可能なさまざまな設定パラメータを分析します。
いくつかの最先端ベンチマークで、他の従来のクローン検出器と徹底的に評価した結果、JavaソースとByteコードの両方でコードクローンを見つける上で、StoneDetectorのパフォーマンスとスケーラビリティを示すことができます。
関連論文リスト
- Industrial-Scale Neural Network Clone Detection with Disk-Based Similarity Search [0.24091079613649843]
コードクローンは、コピー&ペーストプログラミングからしばしば生じる類似のコードフラグメントである。
既存のニューラルネットワークベースのクローン検出スキームを拡張して、利用可能なメモリを超えるクローンを処理する。
メモリに収まる問題サイズの問題に対して、私たちのアプローチはインメモリアプローチよりも約2$times$遅いことを実証しています。
論文 参考訳(メタデータ) (2025-04-24T22:50:23Z) - CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection [20.729032739935132]
CC2Vecは、単純なコードクローンを素早く識別するために設計された新しいコード符号化手法である。
広く使われている2つのデータセット(BigCloneBenchとGoogle Code Jam)上でCC2Vecを評価する。
論文 参考訳(メタデータ) (2024-05-01T10:18:31Z) - Gitor: Scalable Code Clone Detection by Building Global Sample Graph [11.041017540277558]
異なるコードサンプル間の基盤となる接続をキャプチャするGitorを提案する。
Gitorはコードクローンの検出の精度が高く、さまざまなサイズの入力の実行時間に優れています。
論文 参考訳(メタデータ) (2023-11-15T08:48:50Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Who Made This Copy? An Empirical Analysis of Code Clone Authorship [1.1512593234650217]
我々は,GitHubに保管されている153のApacheプロジェクトにおいて,Javaファイルの行レベルの粒度のコードクローンのオーサシップを分析した。
すべてのプロジェクトに対して,相当数のクローンラインがあることが分かりました。
クローン集合の3分の1は、主に複数の主要な著者によって貢献されている。
論文 参考訳(メタデータ) (2023-09-03T08:24:32Z) - ZC3: Zero-Shot Cross-Language Code Clone Detection [79.53514630357876]
ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。
ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
論文 参考訳(メタデータ) (2023-08-26T03:48:10Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Nearest neighbor search with compact codes: A decoder perspective [77.60612610421101]
バイナリハッシュや製品量化器などの一般的な手法を自動エンコーダとして再解釈する。
後方互換性のあるデコーダを設計し、同じ符号からベクトルの再構成を改善する。
論文 参考訳(メタデータ) (2021-12-17T15:22:28Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。