論文の概要: Code Clone Detection via an AlphaFold-Inspired Framework
- arxiv url: http://arxiv.org/abs/2507.15226v1
- Date: Mon, 21 Jul 2025 03:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.249892
- Title: Code Clone Detection via an AlphaFold-Inspired Framework
- Title(参考訳): AlphaFoldにインスパイアされたフレームワークによるコードクローン検出
- Authors: Changguo Jia, Yi Zhan, Tianqi Zhao, Hengzhi Ye, Minghui Zhou,
- Abstract要約: コードのクローン検出は、ソフトウェアのメンテナンスと脆弱性分析において重要な役割を果たす。
我々は、タンパク質配列とトークンシーケンスが共通の線形シーケンス構造を共有するという知見に基づいて、コードクローン検出にAlphaFoldを利用する。
特に,多言語適用性を確保するために,コードフラグメントをトークンシーケンスとして表現するAlphaCCを提案する。
- 参考スコア(独自算出の注目度): 5.977038066371227
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code clone detection, which aims to identify functionally equivalent code fragments, plays a critical role in software maintenance and vulnerability analysis. Substantial methods have been proposed to detect code clones, but they fall short in capturing code semantics or relying on language-specific analyzers. Inspired by the remarkable success of AlphaFold in predicting three-dimensional protein structures from protein sequences, in this paper, we leverage AlphaFold for code clone detection based on the insight that protein sequences and token sequences share a common linear sequential structure. In particular, we propose AlphaCC, which represents code fragments as token sequences to ensure multi-language applicability and adapts AlphaFold's sequence-to-structure modeling capability to infer code semantics. The pipeline of AlphaCC goes through three steps. First, AlphaCC transforms each input code fragment into a token sequence and, motivated by AlphaFold's use of multiple sequence alignment (MSA) to enhance contextual understanding, constructs an MSA from lexically similar token sequences. Second, AlphaCC adopts a modified attention-based encoder based on AlphaFold to model dependencies within and across token sequences. Finally, unlike AlphaFold's protein structure prediction task, AlphaCC computes similarity scores between token sequences through a late interaction strategy and performs binary classification to determine code clone pairs. Comprehensive evaluations on three language-diverse datasets demonstrate AlphaCC's applicability across multiple programming languages. On two semantic clone detection datasets, it consistently outperforms all baselines, showing strong semantic understanding. Moreover, AlphaCC maintains competitive efficiency, enabling practical usage in large-scale clone detection tasks.
- Abstract(参考訳): 機能的に等価なコードフラグメントを特定することを目的としたコードクローン検出は、ソフトウェアのメンテナンスと脆弱性分析において重要な役割を果たす。
コードクローンの検出には実質的な方法が提案されているが、コードセマンティクスのキャプチャや言語固有のアナライザへの依存には不足している。
タンパク質配列からの3次元タンパク質構造予測におけるAlphaFoldの顕著な成功に触発された本論文では、タンパク質配列とトークン配列が共通の線形配列構造を共有するという知見に基づいて、コードクローン検出にAlphaFoldを活用する。
特に,コードフラグメントをトークンシーケンスとして表現して多言語適用性を確保するAlphaCCを提案し,AlphaFoldのシーケンス・ツー・ストラクチャ・モデリング機能を適用してコードセマンティクスを推論する。
AlphaCCのパイプラインには3つのステップがある。
第一に、AlphaCCは各入力コードフラグメントをトークンシーケンスに変換し、AlphaFoldがコンテキスト理解を強化するために多重シーケンスアライメント(MSA)を使用して、語彙的に類似したトークンシーケンスからMSAを構築する。
第二に、AlphaCCはAlphaFoldをベースとしたアテンションベースのエンコーダを改良して、トークンシーケンス内およびトークンシーケンス間の依存関係をモデル化している。
最後に、AlphaFoldのタンパク質構造予測タスクとは異なり、AlphaCCは遅延相互作用戦略を通じてトークンシーケンス間の類似度スコアを計算し、コードクローンペアを決定するバイナリ分類を実行する。
3つの言語多言語データセットに関する総合的な評価は、AlphaCCが複数のプログラミング言語にまたがって適用可能であることを示す。
2つのセマンティッククローン検出データセットでは、すべてのベースラインを一貫して上回り、強力なセマンティック理解を示す。
さらに、AlphaCCは競争効率を維持し、大規模なクローン検出タスクで実用的な使用を可能にする。
関連論文リスト
- HyClone: Bridging LLM Understanding and Dynamic Execution for Semantic Code Clone Detection [3.2167919219391474]
コードクローン検出(Code clone detection)は、ソフトウェア工学において重要なタスクであり、ソフトウェアシステム内の重複や類似のコードフラグメントを識別することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、コードセマンティクスの理解において有望であることを示している。
LLMに基づくスクリーニングと,Pythonプログラムのセマンティッククローンを検出するための実行ベースの検証を組み合わせた,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:11:56Z) - Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence [6.991281327290525]
言語モデルは交換可能なトークンの概念を欠いている。
我々は、この機械学習問題を形式化し、α-共分散を導入する。
本研究は,交換可能なトークン表現を学習可能な言語モデルの設計基盤を確立した。
論文 参考訳(メタデータ) (2024-10-22T16:34:36Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - Unveiling the potential of large language models in generating semantic
and cross-language clones [8.791710193028905]
OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。
セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。
論文 参考訳(メタデータ) (2023-09-12T17:40:49Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Detecting Code Clones with Graph Neural Networkand Flow-Augmented
Abstract Syntax Tree [30.484662671342935]
フロー拡張抽象構文木(FA-AST)と呼ばれるプログラムのグラフ表現を構築する。
FA-ASTに2種類のグラフニューラルネットワークを適用し、コードペアの類似性を計測する。
当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-02-20T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。