論文の概要: Detecting Semantic Clones of Unseen Functionality
- arxiv url: http://arxiv.org/abs/2510.04143v1
- Date: Sun, 05 Oct 2025 10:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.488364
- Title: Detecting Semantic Clones of Unseen Functionality
- Title(参考訳): 目に見えない機能を有する意味クローンの検出
- Authors: Konstantinos Kitsios, Francesco Sovrano, Earl T. Barr, Alberto Bacchelli,
- Abstract要約: 我々は,未確認機能のクローンを検出するタスクにおいて,タスク固有モデルと生成LDMの両方を含む6つの最先端モデルを再評価する。
そこで本研究では,既存モデルの非可視機能のクローン上での性能向上を図るために,コントラッシブ・ラーニング(コントラッシブ・ラーニング)の使用法を提案し,評価する。
- 参考スコア(独自算出の注目度): 7.660632979515074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic code clone detection is the task of detecting whether two snippets of code implement the same functionality (e.g., Sort Array). Recently, many neural models achieved near-perfect performance on this task. These models seek to make inferences based on their training data. Consequently, they better detect clones similar to those they have seen during training and may struggle to detect those they have not. Developers seeking clones are, of course, interested in both types of clones. We confirm this claim through a literature review, identifying three practical clone detection tasks in which the model's goal is to detect clones of a functionality even if it was trained on clones of different functionalities. In light of this finding, we re-evaluate six state-of-the-art models, including both task-specific models and generative LLMs, on the task of detecting clones of unseen functionality. Our experiments reveal a drop in F1 of up to 48% (average 31%) for task-specific models. LLMs perform on par with task-specific models without explicit training for clone detection, but generalize better to unseen functionalities, where F1 drops up to 5% (average 3%) instead. We propose and evaluate the use of contrastive learning to improve the performance of existing models on clones of unseen functionality. We draw inspiration from the computer vision and natural language processing fields where contrastive learning excels at measuring similarity between two objects, even if they come from classes unseen during training. We replace the final classifier of the task-specific models with a contrastive classifier, while for the generative LLMs we propose contrastive in-context learning, guiding the LLMs to focus on the differences between clones and non-clones. The F1 on clones of unseen functionality is improved by up to 26% (average 9%) for task-specific models and up to 5% (average 3%) for LLMs.
- Abstract(参考訳): セマンティックコードクローン検出(Semantic code clone detection)は、2つのコードスニペットが同じ機能(例: Sort Array)を実装しているかどうかを検出するタスクである。
近年,多くのニューラルモデルがこの課題に対してほぼ完全な性能を達成している。
これらのモデルは、トレーニングデータに基づいて推論を試みる。
その結果、彼らは訓練中に見たクローンとよく似たクローンを検知し、まだ検出していないクローンを検出するのに苦労する可能性がある。
クローンを探しているデベロッパーは、もちろんどちらのタイプのクローンにも興味がある。
この主張を文献レビューを通じて確認し、異なる機能のクローンで訓練された場合でも、モデルの目的が機能のクローンを検出することである3つの実用的なクローン検出タスクを特定した。
この発見を踏まえて、未確認機能のクローンを検出するタスクにおいて、タスク固有モデルと生成LDMの両方を含む6つの最先端モデルを再評価する。
実験の結果,タスク固有モデルではF1が最大48%(平均31%)減少していることがわかった。
LLMは、クローン検出のための明示的なトレーニングをすることなく、タスク固有のモデルと同等に動作するが、F1が5%(平均3%)まで低下する、見知らぬ機能に最適化される。
そこで本研究では,既存モデルの非可視機能のクローン上での性能向上を図るために,コントラッシブ・ラーニング(コントラッシブ・ラーニング)の利用法を提案する。
コンピュータビジョンや自然言語処理の分野からインスピレーションを得て,2つのオブジェクト間の類似度を,たとえ学習中に見つからないクラスから来たとしても,対照的な学習が優れている。
タスク固有モデルの最終分類をコントラスト型分類器に置き換える一方、生成型LLMではコントラスト型インコンテキスト学習を提案し、LLMはクローンと非クローンの違いに焦点をあてる。
未確認機能のクローン上のF1は、タスク固有のモデルでは最大26%(平均9%)、LLMでは最大5%(平均3%)改善されている。
関連論文リスト
- HyClone: Bridging LLM Understanding and Dynamic Execution for Semantic Code Clone Detection [3.2167919219391474]
コードクローン検出(Code clone detection)は、ソフトウェア工学において重要なタスクであり、ソフトウェアシステム内の重複や類似のコードフラグメントを識別することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、コードセマンティクスの理解において有望であることを示している。
LLMに基づくスクリーニングと,Pythonプログラムのセマンティッククローンを検出するための実行ベースの検証を組み合わせた,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:11:56Z) - Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - The Struggles of LLMs in Cross-lingual Code Clone Detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Assessing the Code Clone Detection Capability of Large Language Models [0.0]
評価には、さまざまなクローンタイプのコードペアと類似度のレベルでモデルをテストすることが含まれる。
GPT-4はすべてのクローンタイプでGPT-3.5を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-02T16:20:44Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Partial Network Cloning [58.83278629019384]
PNCはソースネットワークから部分パラメトリックの「クローズニング」を実行し、クローン化されたモジュールをターゲットに注入する。
本手法はパラメータ調整法と比較して精度が5%向上し,局所性が50%向上した。
論文 参考訳(メタデータ) (2023-03-19T08:20:31Z) - Evaluation of Contrastive Learning with Various Code Representations for
Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。
CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。
評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-17T12:25:44Z) - Semantic Clone Detection via Probabilistic Software Modeling [69.43451204725324]
本稿では,0%の構文的類似性を有するクローンを検出する意味的クローン検出手法を提案する。
我々は,SCD-PSMをセマンティッククローン検出のための安定かつ高精度なソリューションとして提示する。
論文 参考訳(メタデータ) (2020-08-11T17:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。