論文の概要: ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection
- arxiv url: http://arxiv.org/abs/2208.08067v1
- Date: Wed, 17 Aug 2022 04:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 20:28:51.955354
- Title: ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection
- Title(参考訳): ASTRO: 一般化可能な神経クローン検出のためのAST支援アプローチ
- Authors: Yifan Zhang, Junwen Yang, Haoyu Dong, Qingchen Wang, Huajie Shao,
Kevin Leach, Yu Huang
- Abstract要約: ほとんどのニューラルクローン検出方法は、トレーニングデータセットに現れるクローンの範囲を超えて一般化しない。
一般化可能なニューラルクローン検出のための抽象構文木(AST)を用いたアプローチを提案する。
実験の結果,ASTROはリコールとF-1スコアの両方において最先端のニューラルクローン検出アプローチを改善していることがわかった。
- 参考スコア(独自算出の注目度): 12.794933981621941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural clone detection has attracted the attention of software engineering
researchers and practitioners. However, most neural clone detection methods do
not generalize beyond the scope of clones that appear in the training dataset.
This results in poor model performance, especially in terms of model recall. In
this paper, we present an Abstract Syntax Tree (AST) assisted approach for
generalizable neural clone detection, or ASTRO, a framework for finding clones
in codebases reflecting industry practices. We present three main components:
(1) an AST-inspired representation for source code that leverages program
structure and semantics, (2) a global graph representation that captures the
context of an AST among a corpus of programs, and (3) a graph embedding for
programs that, in combination with extant large-scale language models, improves
state-of-the-art code clone detection. Our experimental results show that ASTRO
improves state-of-the-art neural clone detection approaches in both recall and
F-1 scores.
- Abstract(参考訳): 神経クローン検出は、ソフトウェアエンジニアや実践者の注目を集めている。
しかしながら、ほとんどのニューラルクローン検出方法は、トレーニングデータセットに現れるクローンの範囲を超えて一般化しない。
これにより、特にモデルリコールの観点から、モデルパフォーマンスが低下する。
本稿では,抽象構文木(AST)を用いた一般化可能なニューラルクローン検出手法,ASTROを提案する。
本稿では,(1)プログラム構造とセマンティクスを活用するソースコードに対するASTにインスパイアされた表現,(2)プログラムのコーパス間のASTのコンテキストをキャプチャするグローバルグラフ表現,(3)既存の大規模言語モデルと組み合わせて,最先端のコードクローン検出を改善するプログラムのためのグラフ埋め込み,の3つの主要なコンポーネントについて述べる。
実験の結果,ASTROはリコールとF-1スコアの両方において最先端のニューラルクローン検出アプローチを改善していることがわかった。
関連論文リスト
- Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。
両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文 参考訳(メタデータ) (2024-04-05T12:41:53Z) - Using Ensemble Inference to Improve Recall of Clone Detection [0.0]
大規模なソースコードクローン検出は難しい課題である。
我々は、最先端のニューラルネットワークモデル4つを採用し、それらを個別に/または組み合わせて評価する。
その結果、およそ5万行のC/C++コードからなるイラストレーションデータセット上で、アンサンブル推論は、すべての試行ケースで個々のモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T09:44:59Z) - Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文 参考訳(メタデータ) (2023-09-05T12:38:55Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - Detecting Code Clones with Graph Neural Networkand Flow-Augmented
Abstract Syntax Tree [30.484662671342935]
フロー拡張抽象構文木(FA-AST)と呼ばれるプログラムのグラフ表現を構築する。
FA-ASTに2種類のグラフニューラルネットワークを適用し、コードペアの類似性を計測する。
当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-02-20T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。