論文の概要: Enhancing Source Code Representations for Deep Learning with Static
Analysis
- arxiv url: http://arxiv.org/abs/2402.09557v1
- Date: Wed, 14 Feb 2024 20:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:08:18.503867
- Title: Enhancing Source Code Representations for Deep Learning with Static
Analysis
- Title(参考訳): 静的解析によるディープラーニングのためのソースコード表現の強化
- Authors: Xueting Guan, Christoph Treude
- Abstract要約: 本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
- 参考スコア(独自算出の注目度): 10.222207222039048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning techniques applied to program analysis tasks such as code
classification, summarization, and bug detection have seen widespread interest.
Traditional approaches, however, treat programming source code as natural
language text, which may neglect significant structural or semantic details.
Additionally, most current methods of representing source code focus solely on
the code, without considering beneficial additional context. This paper
explores the integration of static analysis and additional context such as bug
reports and design patterns into source code representations for deep learning
models. We use the Abstract Syntax Tree-based Neural Network (ASTNN) method and
augment it with additional context information obtained from bug reports and
design patterns, creating an enriched source code representation that
significantly enhances the performance of common software engineering tasks
such as code classification and code clone detection. Utilizing existing
open-source code data, our approach improves the representation and processing
of source code, thereby improving task performance.
- Abstract(参考訳): コード分類、要約、バグ検出などのプログラム解析タスクに適用されるディープラーニング技術は、広く関心を集めている。
しかし、従来のアプローチでは、ソースコードを自然言語のテキストとして扱い、構造的あるいは意味的な詳細を無視することもあった。
さらに、ソースコードを表す現在のほとんどのメソッドは、有益な追加のコンテキストを考慮せずに、コードにのみフォーカスする。
本稿では,静的解析とバグレポートや設計パターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合することを検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加し,コード分類やコードクローン検出などの共通ソフトウェアエンジニアリングタスクのパフォーマンスを大幅に向上させる,リッチなソースコード表現を作成する。
既存のオープンソースコードデータを活用することで,ソースコードの表現と処理が向上し,タスク性能が向上する。
関連論文リスト
- Encoding Version History Context for Better Code Representation [13.045078976464307]
本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。
技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
論文 参考訳(メタデータ) (2024-02-06T07:35:36Z) - Boosting Source Code Learning with Data Augmentation: An Empirical Study [16.49710700412084]
本研究では,もともとテキストやグラフに用いたデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効かどうかを検討する。
この結果から,より正確でロバストなソースコード学習モデルを生成するデータ拡張手法が同定された。
論文 参考訳(メタデータ) (2023-03-13T01:47:05Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - Adding Context to Source Code Representations for Deep Learning [13.676416860721877]
我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-07-30T12:47:32Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Code2Image: Intelligent Code Analysis by Computer Vision Techniques and
Application to Vulnerability Prediction [0.6091702876917281]
本稿では,意味的および構文的性質を維持しつつ,ソースコードを画像として表現する新しい手法を提案する。
この手法により,ソースコードのイメージ表現を直接入力として深層学習(DL)アルゴリズムに入力することができる。
脆弱性予測ユースケースをパブリックデータセット上で実現することで,本手法の実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2021-05-07T09:10:20Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。