論文の概要: Deep Graph Matching and Searching for Semantic Code Retrieval
- arxiv url: http://arxiv.org/abs/2010.12908v2
- Date: Fri, 22 Jan 2021 16:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:27:37.103114
- Title: Deep Graph Matching and Searching for Semantic Code Retrieval
- Title(参考訳): セマンティックコード検索のためのディープグラフマッチングと検索
- Authors: Xiang Ling, Lingfei Wu, Saizhuo Wang, Gaoning Pan, Tengfei Ma, Fangli
Xu, Alex X. Liu, Chunming Wu, Shouling Ji
- Abstract要約: 本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
- 参考スコア(独自算出の注目度): 76.51445515611469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code retrieval is to find the code snippet from a large corpus of source code
repositories that highly matches the query of natural language description.
Recent work mainly uses natural language processing techniques to process both
query texts (i.e., human natural language) and code snippets (i.e., machine
programming language), however neglecting the deep structured features of query
texts and source codes, both of which contain rich semantic information. In
this paper, we propose an end-to-end deep graph matching and searching (DGMS)
model based on graph neural networks for the task of semantic code retrieval.
To this end, we first represent both natural language query texts and
programming language code snippets with the unified graph-structured data, and
then use the proposed graph matching and searching model to retrieve the best
matching code snippet. In particular, DGMS not only captures more structural
information for individual query texts or code snippets but also learns the
fine-grained similarity between them by cross-attention based semantic matching
operations. We evaluate the proposed DGMS model on two public code retrieval
datasets with two representative programming languages (i.e., Java and Python).
Experiment results demonstrate that DGMS significantly outperforms
state-of-the-art baseline models by a large margin on both datasets. Moreover,
our extensive ablation studies systematically investigate and illustrate the
impact of each part of DGMS.
- Abstract(参考訳): コード検索は、自然言語記述のクエリに高度にマッチするソースコードリポジトリの大規模なコーパスから、コードスニペットを見つけることである。
最近の研究は、主に自然言語処理技術を用いて、クエリテキスト(人間の自然言語)とコードスニペット(機械プログラミング言語)の両方を処理しているが、どちらも豊富な意味情報を含むクエリテキストとソースコードの深い構造的特徴を無視している。
本稿では,セマンティックコード検索のためのグラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと検索(DGMS)モデルを提案する。
この目的のために、まず自然言語クエリテキストとプログラミング言語のコードスニペットを統一されたグラフ構造化データで表現し、次に提案したグラフマッチングと検索モデルを用いて最適なマッチングコードスニペットを検索する。
特に、dgmは個々のクエリテキストやコードスニペットのための構造情報をキャプチャするだけでなく、相互接続に基づくセマンティックマッチング操作によってそれら間の細かな類似性を学習する。
提案したDGMSモデルを,2つの代表的なプログラミング言語(JavaとPython)を用いた2つの公開コード検索データセット上で評価する。
実験の結果、DGMSは両方のデータセットで最先端のベースラインモデルよりも大幅に優れていた。
さらに, DGMSの各部位の影響を系統的に検討し, 検討した。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - GraphSearchNet: Enhancing GNNs via Capturing Global Dependency for
Semantic Code Search [15.687959123626003]
我々は、効率よく正確なソースコード検索を可能にする新しいニューラルネットワークフレームワーク、GraphSearchNetを設計する。
具体的には、BGGNNを用いてソースコードとクエリを2つのグラフにエンコードし、そのグラフの局所構造情報をキャプチャする。
JavaとPythonのデータセットでの実験は、GraphSearchNetが現在の最先端の作業よりもかなりのマージンで優れていることを示している。
論文 参考訳(メタデータ) (2021-11-04T07:38:35Z) - Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-07-02T12:08:19Z) - deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search [15.19181807445119]
ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。
C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
論文 参考訳(メタデータ) (2021-03-24T06:57:44Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。