Fugu-MT 論文翻訳(概要): ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection

論文の概要: ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection

arxiv url: http://arxiv.org/abs/2208.08067v1
Date: Wed, 17 Aug 2022 04:50:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 20:28:51.955354
Title: ASTRO: An AST-Assisted Approach for Generalizable Neural Clone Detection
Title（参考訳）: ASTRO: 一般化可能な神経クローン検出のためのAST支援アプローチ
Authors: Yifan Zhang, Junwen Yang, Haoyu Dong, Qingchen Wang, Huajie Shao, Kevin Leach, Yu Huang
Abstract要約: ほとんどのニューラルクローン検出方法は、トレーニングデータセットに現れるクローンの範囲を超えて一般化しない。一般化可能なニューラルクローン検出のための抽象構文木(AST)を用いたアプローチを提案する。実験の結果,ASTROはリコールとF-1スコアの両方において最先端のニューラルクローン検出アプローチを改善していることがわかった。
参考スコア（独自算出の注目度）: 12.794933981621941
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural clone detection has attracted the attention of software engineering researchers and practitioners. However, most neural clone detection methods do not generalize beyond the scope of clones that appear in the training dataset. This results in poor model performance, especially in terms of model recall. In this paper, we present an Abstract Syntax Tree (AST) assisted approach for generalizable neural clone detection, or ASTRO, a framework for finding clones in codebases reflecting industry practices. We present three main components: (1) an AST-inspired representation for source code that leverages program structure and semantics, (2) a global graph representation that captures the context of an AST among a corpus of programs, and (3) a graph embedding for programs that, in combination with extant large-scale language models, improves state-of-the-art code clone detection. Our experimental results show that ASTRO improves state-of-the-art neural clone detection approaches in both recall and F-1 scores.
Abstract（参考訳）: 神経クローン検出は、ソフトウェアエンジニアや実践者の注目を集めている。しかしながら、ほとんどのニューラルクローン検出方法は、トレーニングデータセットに現れるクローンの範囲を超えて一般化しない。これにより、特にモデルリコールの観点から、モデルパフォーマンスが低下する。本稿では,抽象構文木(AST)を用いた一般化可能なニューラルクローン検出手法,ASTROを提案する。本稿では,(1)プログラム構造とセマンティクスを活用するソースコードに対するASTにインスパイアされた表現,(2)プログラムのコーパス間のASTのコンテキストをキャプチャするグローバルグラフ表現,(3)既存の大規模言語モデルと組み合わせて,最先端のコードクローン検出を改善するプログラムのためのグラフ埋め込み,の3つの主要なコンポーネントについて述べる。実験の結果,ASTROはリコールとF-1スコアの両方において最先端のニューラルクローン検出アプローチを改善していることがわかった。

関連論文リスト

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文参考訳（メタデータ） (2026-02-12T03:02:22Z)
Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文参考訳（メタデータ） (2025-09-16T03:48:22Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Enhancing Large Language Models with Faster Code Preprocessing for Vulnerability Detection [0.0]
既存のSCoPEフレームワーク上に構築し、パフォーマンスを改善した拡張バージョンであるSCoPE2を導入します。 SCoPE2による処理時間を97.3%削減し,脆弱性検出のためのLarge Language Model(LLM)のF1スコアを改良した。
論文参考訳（メタデータ） (2025-05-08T19:00:11Z)
EnStack: An Ensemble Stacking Framework of Large Language Models for Enhanced Vulnerability Detection in Source Code [1.9374282535132379]
本稿では,自然言語処理(NLP)技術を用いた脆弱性検出を支援する,新たなアンサンブルスタックフレームワークであるEnStackを紹介する。本手法は,コード理解に特化した複数の事前学習型大規模言語モデル(LLM)を相乗化する。メタ分類器はそれぞれのLSMの強度を集約し、微妙で複雑な脆弱性を検知する包括的なモデルをもたらす。
論文参考訳（メタデータ） (2024-11-25T16:47:10Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文参考訳（メタデータ） (2024-06-10T00:05:49Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。 IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文参考訳（メタデータ） (2024-04-24T03:25:53Z)
Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文参考訳（メタデータ） (2024-04-05T12:41:53Z)
An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文参考訳（メタデータ） (2024-03-30T08:42:10Z)
Using Ensemble Inference to Improve Recall of Clone Detection [0.0]
大規模なソースコードクローン検出は難しい課題である。我々は、最先端のニューラルネットワークモデル4つを採用し、それらを個別に/または組み合わせて評価する。その結果、およそ5万行のC/C++コードからなるイラストレーションデータセット上で、アンサンブル推論は、すべての試行ケースで個々のモデルよりも優れていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T09:44:59Z)
Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文参考訳（メタデータ） (2023-11-04T06:00:56Z)
Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文参考訳（メタデータ） (2023-09-05T12:38:55Z)
Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文参考訳（メタデータ） (2023-08-28T12:55:13Z)
DCDetector: An IoT terminal vulnerability mining system based on distributed deep ensemble learning under source code representation [2.561778620560749]
この研究の目的は、C/C++のような高レベルの言語のソースコードの脆弱性をインテリジェントに検出することである。これにより、ソースコードのセンシティブな文関連スライスをコード表現し、分散深層学習モデルの設計により脆弱性を検出することができる。実験により,従来の静的解析の偽陽性率を低減し,機械学習の性能と精度を向上させることができることがわかった。
論文参考訳（メタデータ） (2022-11-29T14:19:14Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。 CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文参考訳（メタデータ） (2020-09-28T09:49:38Z)
A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文参考訳（メタデータ） (2020-09-05T16:06:04Z)
Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文参考訳（メタデータ） (2020-04-06T17:36:42Z)
Detecting Code Clones with Graph Neural Networkand Flow-Augmented Abstract Syntax Tree [30.484662671342935]
フロー拡張抽象構文木(FA-AST)と呼ばれるプログラムのグラフ表現を構築する。 FA-ASTに2種類のグラフニューラルネットワークを適用し、コードペアの類似性を計測する。当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。
論文参考訳（メタデータ） (2020-02-20T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。