論文の概要: AST-Enhanced or AST-Overloaded? The Surprising Impact of Hybrid Graph Representations on Code Clone Detection
- arxiv url: http://arxiv.org/abs/2506.14470v1
- Date: Tue, 17 Jun 2025 12:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.469208
- Title: AST-Enhanced or AST-Overloaded? The Surprising Impact of Hybrid Graph Representations on Code Clone Detection
- Title(参考訳): AST強調かASTオーバーロードか? ハイブリットグラフ表現がコードクローン検出に及ぼす影響
- Authors: Zixian Zhang, Takfarinas Saber,
- Abstract要約: コードクローンはソフトウェアのメンテナンスコストを大幅に増加させ、脆弱性リスクを高める。
ASTは、その正確な構文構造表現により、ディープラーニングベースのコードクローン検出を支配している。
近年の研究では、ASTベースの表現をセマンティックグラフで豊かにすることでこの問題に対処している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As one of the most detrimental code smells, code clones significantly increase software maintenance costs and heighten vulnerability risks, making their detection a critical challenge in software engineering. Abstract Syntax Trees (ASTs) dominate deep learning-based code clone detection due to their precise syntactic structure representation, but they inherently lack semantic depth. Recent studies address this by enriching AST-based representations with semantic graphs, such as Control Flow Graphs (CFGs) and Data Flow Graphs (DFGs). However, the effectiveness of various enriched AST-based representations and their compatibility with different graph-based machine learning techniques remains an open question, warranting further investigation to unlock their full potential in addressing the complexities of code clone detection. In this paper, we present a comprehensive empirical study to rigorously evaluate the effectiveness of AST-based hybrid graph representations in Graph Neural Network (GNN)-based code clone detection. We systematically compare various hybrid representations ((CFG, DFG, Flow-Augmented ASTs (FA-AST)) across multiple GNN architectures. Our experiments reveal that hybrid representations impact GNNs differently: while AST+CFG+DFG consistently enhances accuracy for convolution- and attention-based models (Graph Convolutional Networks (GCN), Graph Attention Networks (GAT)), FA-AST frequently introduces structural complexity that harms performance. Notably, GMN outperforms others even with standard AST representations, highlighting its superior cross-code similarity detection and reducing the need for enriched structures.
- Abstract(参考訳): 最も有害なコードの臭いの1つとして、コードのクローンはソフトウェアのメンテナンスコストを大幅に増加させ、脆弱性のリスクを高めます。
抽象構文木(AST)は、その正確な構文構造を表現するため、ディープラーニングベースのコードクローン検出を支配しているが、本質的には意味的な深さを欠いている。
近年の研究では、制御フローグラフ(CFG)やデータフローグラフ(DFG)といった、ASTベースの表現をセマンティックグラフで強化することで、この問題に対処している。
しかし、様々な豊かなASTベースの表現の有効性と、グラフベースのさまざまな機械学習技術との互換性は未解決の問題であり、コードクローン検出の複雑さに対処する上で、さらなる可能性の開放を保証している。
本稿では,グラフニューラルネットワーク(GNN)を用いたコードクローン検出において,ASTに基づくハイブリッドグラフ表現の有効性を徹底的に評価するための総合的研究を行う。
我々は,複数のGNNアーキテクチャにまたがる様々なハイブリッド表現(CFG,DFG,フロー拡張AST(FA-AST))を体系的に比較する。
AST+CFG+DFGは畳み込みと注意に基づくモデル(GCN, Graph Attention Networks, GAT)の精度を一貫して向上するが,FA-ASTは性能を損なう構造的複雑さを頻繁に導入する。
特に、GMNは標準的なAST表現でも他よりも優れており、優れたクロスコード類似性検出と強化された構造の必要性の低減を強調している。
関連論文リスト
- Heterogeneous Directed Hypergraph Neural Network over abstract syntax
tree (AST) for Code Classification [9.01892294402701]
我々は、ASTをヘテロジニアス指向ハイパーグラフ(HDHG)として表現し、コード分類のためのヘテロジニアス指向ハイパーグラフニューラルネットワーク(HDHGN)によるグラフ処理を提案する。
提案手法は, コード理解を改善し, 対の相互作用を超えた高次データ相関を表現できる。
論文 参考訳(メタデータ) (2023-05-07T09:28:16Z) - Resisting Graph Adversarial Attack via Cooperative Homophilous
Augmentation [60.50994154879244]
最近の研究では、グラフニューラルネットワークは弱く、小さな摂動によって簡単に騙されることが示されている。
本研究では,グラフインジェクションアタック(Graph Injection Attack)という,新興だが重要な攻撃に焦点を当てる。
本稿では,グラフデータとモデルの協調的同好性増強によるGIAに対する汎用防衛フレームワークCHAGNNを提案する。
論文 参考訳(メタデータ) (2022-11-15T11:44:31Z) - Simple and Efficient Heterogeneous Graph Neural Network [55.56564522532328]
不均一グラフニューラルネットワーク(HGNN)は、不均一グラフの豊富な構造的および意味的な情報をノード表現に埋め込む強力な能力を持つ。
既存のHGNNは、同種グラフ上のグラフニューラルネットワーク(GNN)から多くのメカニズム、特に注意機構と多層構造を継承する。
本稿では,これらのメカニズムを詳細に検討し,簡便かつ効率的なヘテロジニアスグラフニューラルネットワーク(SeHGNN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T10:01:46Z) - SCGC : Self-Supervised Contrastive Graph Clustering [1.1470070927586016]
グラフクラスタリングはネットワーク内のグループやコミュニティを検出する。
オートエンコーダのような深層学習手法は、豊富な構造情報を組み込むことはできない。
自己監督型コントラストグラフクラスタリング(SCGC)を提案する。
論文 参考訳(メタデータ) (2022-04-27T01:38:46Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Improving Graph Neural Network Expressivity via Subgraph Isomorphism
Counting [63.04999833264299]
グラフサブストラクチャネットワーク(GSN)は,サブストラクチャエンコーディングに基づくトポロジ的に認識可能なメッセージパッシング方式である。
Wesfeiler-Leman (WL) グラフ同型テストよりも厳密に表現可能であることを示す。
グラフ分類と回帰タスクについて広範囲に評価を行い、様々な実世界の環境において最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T15:30:31Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Efficient and Stable Graph Scattering Transforms via Pruning [86.76336979318681]
グラフ散乱変換(GST)は、グラフデータから特徴を抽出する訓練のないディープGCNモデルを提供する。
GSTが支払う価格は、層の数によって増加する空間と時間の指数関数的な複雑さである。
本研究は, GST の複雑性の限界に対処し, 効率的な (p) GST アプローチを導入する。
論文 参考訳(メタデータ) (2020-01-27T16:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。