論文の概要: Are Classical Clone Detectors Good Enough For the AI Era?
- arxiv url: http://arxiv.org/abs/2509.25754v1
- Date: Tue, 30 Sep 2025 04:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.422553
- Title: Are Classical Clone Detectors Good Enough For the AI Era?
- Title(参考訳): 古典的なクローン検出器はAI時代にとって十分か?
- Authors: Ajmain Inqiad Alam, Palash Roy, Farouq Al-omari, Chanchal Roy, Banani Roy, Kevin Schneider,
- Abstract要約: AI生成コードの採用の増加は、現代のソフトウェア開発を形変えた。
AI生成クローンは、大規模なトレーニングデータから学んだ体系的な構文パターンと意味的差異を示す。
古典的なコードクローン検出ツールは、歴史的に主に人間による認証で検証されてきた。
- 参考スコア(独自算出の注目度): 5.2308433103996625
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing adoption of AI-generated code has reshaped modern software development, introducing syntactic and semantic variations in cloned code. Unlike traditional human-written clones, AI-generated clones exhibit systematic syntactic patterns and semantic differences learned from large-scale training data. This shift presents new challenges for classical code clone detection (CCD) tools, which have historically been validated primarily on human-authored codebases and optimized to detect syntactic (Type 1-3) and limited semantic clones. Given that AI-generated code can produce both syntactic and complex semantic clones, it is essential to evaluate the effectiveness of classical CCD tools within this new paradigm. In this paper, we systematically evaluate nine widely used CCD tools using GPTCloneBench, a benchmark containing GPT-3-generated clones. To contextualize and validate our results, we further test these detectors on established human-authored benchmarks, BigCloneBench and SemanticCloneBench, to measure differences in performance between traditional and AI-generated clones. Our analysis demonstrates that classical CCD tools, particularly those enhanced by effective normalization techniques, retain considerable effectiveness against AI-generated clones, while some exhibit notable performance variation compared to traditional benchmarks. This paper contributes by (1) evaluating classical CCD tools against AI-generated clones, providing critical insights into their current strengths and limitations; (2) highlighting the role of normalization techniques in improving detection accuracy; and (3) delivering detailed scalability and execution-time analyses to support practical CCD tool selection.
- Abstract(参考訳): AI生成コードの採用が増加し、クローンコードに構文的および意味的バリエーションを導入し、モダンなソフトウェア開発が生まれ変わった。
従来の人間によるクローンとは異なり、AI生成クローンは、大規模なトレーニングデータから学んだ体系的な構文パターンと意味的差異を示す。
このシフトは、古典的なコードクローン検出(CCD)ツールに新しい課題をもたらす。これは、主に人間が認可したコードベースで歴史的に検証され、構文(Type 1-3)と限定的なセマンティッククローンを検出するように最適化されている。
AI生成コードが構文と複雑なセマンティッククローンの両方を生成できることを考えると、この新しいパラダイムにおける古典的なCCDツールの有効性を評価することが不可欠である。
本稿では,GPT-3 生成クローンを含むベンチマークである GPTCloneBench を用いて,9つの広く使用されている CCD ツールを体系的に評価する。
結果のコンテキスト化と検証のために、従来のAI生成クローンとAI生成クローンのパフォーマンスの違いを計測するために、確立された人為的なベンチマークであるBigCloneBenchとSemanticCloneBenchでこれらの検出器をさらにテストする。
我々の分析では、従来のCCDツール、特に効果的な正規化手法によって強化されたツールは、AI生成クローンに対してかなりの効果を保ちつつも、従来のベンチマークと比較すると顕著な性能変化を示すものもある。
本稿では,(1)AI生成クローンに対する古典的CCDツールの評価,(2)検出精度の向上における正規化技術の役割の強調,(3)実用的なCCDツール選択を支援するための詳細なスケーラビリティと実行時間分析の提供など,そのメリットと限界について重要な知見を提供する。
関連論文リスト
- CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - Detecting Essence Code Clones via Information Theoretic Analysis [28.696542467142983]
コードのクローンには、時間の節約のためにコードの断片を複製するが、ソフトウェア保守性と品質を犠牲にすることが多い。
essence clones" はType-3クローンの複雑なサブタイプであり、周辺コードが異なるにもかかわらず重要なロジックを共有するのが特徴である。
伝統的なテクニックは、しばしばその構文的焦点のため、自然クローンを検出するのに失敗する。
本稿では,コード行の意味的重要性を評価するために情報理論を利用した新しい検出ツールECScanを紹介する。
論文 参考訳(メタデータ) (2025-02-26T15:23:40Z) - Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文 参考訳(メタデータ) (2023-09-05T12:38:55Z) - GPTCloneBench: A comprehensive benchmark of semantic clones and
cross-language clones using GPT-3 model and SemanticCloneBench [1.8687918300580921]
本稿では,SemanticCloneBenchとOpenAIのGPT-3モデルを利用して,包括的セマンティッククローンと言語間クローンベンチマークGPTCloneBenchを提案する。
GPT-3出力の79,928個のクローンペアから、37,149個の真のセマンティッククローンペア、19,288個の偽セマンティックペア(Type-1/Type-2)、および4言語(Java、C、C#、Python)にわたる20,770個のクロス言語クローンのベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-08-26T21:50:34Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection [12.794933981621941]
ほとんどのニューラルクローン検出方法は、トレーニングデータセットに現れるクローンの範囲を超えて一般化しない。
一般化可能なニューラルクローン検出のための抽象構文木(AST)を用いたアプローチを提案する。
実験の結果,ASTROはリコールとF-1スコアの両方において最先端のニューラルクローン検出アプローチを改善していることがわかった。
論文 参考訳(メタデータ) (2022-08-17T04:50:51Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。