論文の概要: deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search
- arxiv url: http://arxiv.org/abs/2103.13020v1
- Date: Wed, 24 Mar 2021 06:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 19:38:12.578357
- Title: deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search
- Title(参考訳): deGraphCS: ニューラルネットワーク検索のための変数ベースのフローグラフの埋め込み
- Authors: Chen Zeng, Yue Yu, Shanshan Li, Xin Xia, Zhiming Wang, Mingyang Geng,
Bailin Xiao, Wei Dong, Xiangke Liao
- Abstract要約: ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。
C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
- 参考スコア(独自算出の注目度): 15.19181807445119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid increase in the amount of public code repositories, developers
maintain a great desire to retrieve precise code snippets by using natural
language. Despite existing deep learning based approaches(e.g., DeepCS and
MMAN) have provided the end-to-end solutions (i.e., accepts natural language as
queries and shows related code fragments retrieved directly from code corpus),
the accuracy of code search in the large-scale repositories is still limited by
the code representation (e.g., AST) and modeling (e.g., directly fusing the
features in the attention stage). In this paper, we propose a novel learnable
deep Graph for Code Search (calleddeGraphCS), to transfer source code into
variable-based flow graphs based on the intermediate representation technique,
which can model code semantics more precisely compared to process the code as
text directly or use the syntactic tree representation. Furthermore, we propose
a well-designed graph optimization mechanism to refine the code representation,
and apply an improved gated graph neural network to model variable-based flow
graphs. To evaluate the effectiveness of deGraphCS, we collect a large-scale
dataset from GitHub containing 41,152 code snippets written in C language, and
reproduce several typical deep code search methods for comparison. Besides, we
design a qualitative user study to verify the practical value of our approach.
The experimental results have shown that deGraphCS can achieve state-of-the-art
performances, and accurately retrieve code snippets satisfying the needs of the
users.
- Abstract(参考訳): パブリックコードリポジトリの量が急速に増加する中、開発者は自然言語を使って正確なコードスニペットを取得することを非常に望んでいます。
既存のディープラーニングベースのアプローチ(例えば、DeepCSやMMAN)は、自然言語をクエリとして受け入れ、関連するコードフラグメントをコードコーパスから直接取得するなど、エンドツーエンドのソリューションを提供してきたが、大規模なリポジトリでのコード検索の精度は、コード表現(AST)とモデリング(例えば、アテンションステージの機能を直接融合させる)によって制限されている。
本稿では,中間表現法に基づいてソースコードを変数ベースのフローグラフに転送する,コード探索のための新しい学習可能な深層グラフ(degraphcs)を提案する。
さらに,コード表現を洗練するよく設計されたグラフ最適化機構を提案し,改良されたゲートグラフニューラルネットワークを可変フローグラフのモデル化に適用する。
deGraphCSの有効性を評価するために、C言語で記述された41,152のコードスニペットを含むGitHubから大規模なデータセットを収集し、比較のためにいくつかの典型的なディープコード検索方法を再現した。
さらに,本手法の実用的価値を検証するための定性的なユーザスタディを設計する。
実験の結果,deGraphCSは最先端のパフォーマンスを実現し,ユーザのニーズを満たすコードスニペットを正確に検索できることがわかった。
関連論文リスト
- Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs [5.953617559607503]
Vul-LMGNNは、事前訓練されたコード言語モデルとコードプロパティグラフを組み合わせた統一モデルである。
Vul-LMGNNは、様々なコード属性を統一的なグラフ構造に統合するコードプロパティグラフを構築する。
属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-04-23T03:48:18Z) - CONCORD: Towards a DSL for Configurable Graph Code Representation [3.756550107432323]
カスタマイズ可能なグラフ表現を構築するためのドメイン固有言語であるCONCORDを紹介する。
実例として,コードの臭い検出に有効であることを示す。
ConCORDは、研究者がカスタマイズ可能なグラフベースのコード表現を作成し、実験するのに役立つ。
論文 参考訳(メタデータ) (2024-01-31T16:16:48Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。