論文の概要: Adding Context to Source Code Representations for Deep Learning
- arxiv url: http://arxiv.org/abs/2208.00203v1
- Date: Sat, 30 Jul 2022 12:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:46:52.413704
- Title: Adding Context to Source Code Representations for Deep Learning
- Title(参考訳): ディープラーニングのためのソースコード表現にコンテキストを追加する
- Authors: Fuwei Tian and Christoph Treude
- Abstract要約: 我々は、ディープラーニングモデルが分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると主張している。
本稿では,コード自体の情報とともに,コール階層からコンテキストを符号化することで,最先端のディープラーニングモデルの性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 13.676416860721877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have been successfully applied to a variety of software
engineering tasks, such as code classification, summarisation, and bug and
vulnerability detection. In order to apply deep learning to these tasks, source
code needs to be represented in a format that is suitable for input into the
deep learning model. Most approaches to representing source code, such as
tokens, abstract syntax trees (ASTs), data flow graphs (DFGs), and control flow
graphs (CFGs) only focus on the code itself and do not take into account
additional context that could be useful for deep learning models. In this
paper, we argue that it is beneficial for deep learning models to have access
to additional contextual information about the code being analysed. We present
preliminary evidence that encoding context from the call hierarchy along with
information from the code itself can improve the performance of a
state-of-the-art deep learning model for two software engineering tasks. We
outline our research agenda for adding further contextual information to source
code representations for deep learning.
- Abstract(参考訳): ディープラーニングモデルは、コード分類、要約、バグや脆弱性検出など、さまざまなソフトウェアエンジニアリングタスクにうまく適用されています。
これらのタスクにディープラーニングを適用するためには、ソースコードをディープラーニングモデルへの入力に適したフォーマットで表現する必要がある。
トークン、抽象構文木(AST)、データフローグラフ(DFG)、制御フローグラフ(CFG)といったソースコードを表現するほとんどのアプローチは、コード自体にのみ焦点を当てており、ディープラーニングモデルに有用な追加のコンテキストを考慮していない。
本稿では、ディープラーニングモデルが、分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると論じる。
我々は、コール階層からコンテキストをエンコーディングし、コード自体の情報とともに、2つのソフトウェアエンジニアリングタスクのための最先端のディープラーニングモデルの性能を向上させるための予備的な証拠を示す。
深層学習のためのソースコード表現にさらに文脈情報を追加するための研究課題について概説する。
関連論文リスト
- Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Encoding Version History Context for Better Code Representation [13.045078976464307]
本稿では,コードクローンを予測し,コード分類を行うために,バージョン履歴からコンテキスト情報を符号化することの潜在的な利点について,予備的な証拠を示す。
技術が一貫して機能するためには、コンテキスト、集約、モデルの異なる組み合わせを使用して、より大きなコードベースに関する包括的な調査を行う必要があります。
論文 参考訳(メタデータ) (2024-02-06T07:35:36Z) - Source Code Data Augmentation for Deep Learning: A Survey [32.035973285175075]
ソースコードに対するデータ拡張に関する包括的調査を行う。
DAの品質を最適化するための一般的な戦略とテクニックを強調します。
今後の研究の課題と可能性について概説する。
論文 参考訳(メタデータ) (2023-05-31T14:47:44Z) - Survey of Code Search Based on Deep Learning [11.94599964179766]
この調査は、コード検索、すなわち、あるクエリにマッチするコードを取得することに焦点を当てている。
複雑な意味情報を抽出できるディープラーニングは、この分野で大きな成功を収めている。
本稿では,最先端のディープラーニングに基づくコード検索を記述した新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-05-10T08:07:04Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - A Survey of Deep Learning Models for Structural Code Understanding [21.66270320648155]
本稿では,コードデータから形成される構造について概観する。
近年のコード理解モデルは,シーケンスベースモデルとグラフベースモデルという2つのグループに分類されている。
メトリクスやデータセット、下流タスクも導入しています。
論文 参考訳(メタデータ) (2022-05-03T03:56:17Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。