Fugu-MT 論文翻訳(概要): Deep Graph Matching and Searching for Semantic Code Retrieval

論文の概要: Deep Graph Matching and Searching for Semantic Code Retrieval

arxiv url: http://arxiv.org/abs/2010.12908v2
Date: Fri, 22 Jan 2021 16:38:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 13:27:37.103114
Title: Deep Graph Matching and Searching for Semantic Code Retrieval
Title（参考訳）: セマンティックコード検索のためのディープグラフマッチングと検索
Authors: Xiang Ling, Lingfei Wu, Saizhuo Wang, Gaoning Pan, Tengfei Ma, Fangli Xu, Alex X. Liu, Chunming Wu, Shouling Ji
Abstract要約: 本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
参考スコア（独自算出の注目度）: 76.51445515611469
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code retrieval is to find the code snippet from a large corpus of source code repositories that highly matches the query of natural language description. Recent work mainly uses natural language processing techniques to process both query texts (i.e., human natural language) and code snippets (i.e., machine programming language), however neglecting the deep structured features of query texts and source codes, both of which contain rich semantic information. In this paper, we propose an end-to-end deep graph matching and searching (DGMS) model based on graph neural networks for the task of semantic code retrieval. To this end, we first represent both natural language query texts and programming language code snippets with the unified graph-structured data, and then use the proposed graph matching and searching model to retrieve the best matching code snippet. In particular, DGMS not only captures more structural information for individual query texts or code snippets but also learns the fine-grained similarity between them by cross-attention based semantic matching operations. We evaluate the proposed DGMS model on two public code retrieval datasets with two representative programming languages (i.e., Java and Python). Experiment results demonstrate that DGMS significantly outperforms state-of-the-art baseline models by a large margin on both datasets. Moreover, our extensive ablation studies systematically investigate and illustrate the impact of each part of DGMS.
Abstract（参考訳）: コード検索は、自然言語記述のクエリに高度にマッチするソースコードリポジトリの大規模なコーパスから、コードスニペットを見つけることである。最近の研究は、主に自然言語処理技術を用いて、クエリテキスト(人間の自然言語)とコードスニペット(機械プログラミング言語)の両方を処理しているが、どちらも豊富な意味情報を含むクエリテキストとソースコードの深い構造的特徴を無視している。本稿では,セマンティックコード検索のためのグラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと検索(DGMS)モデルを提案する。この目的のために、まず自然言語クエリテキストとプログラミング言語のコードスニペットを統一されたグラフ構造化データで表現し、次に提案したグラフマッチングと検索モデルを用いて最適なマッチングコードスニペットを検索する。特に、dgmは個々のクエリテキストやコードスニペットのための構造情報をキャプチャするだけでなく、相互接続に基づくセマンティックマッチング操作によってそれら間の細かな類似性を学習する。提案したDGMSモデルを,2つの代表的なプログラミング言語(JavaとPython)を用いた2つの公開コード検索データセット上で評価する。実験の結果、DGMSは両方のデータセットで最先端のベースラインモデルよりも大幅に優れていた。さらに, DGMSの各部位の影響を系統的に検討し, 検討した。

関連論文リスト

MGS3: A Multi-Granularity Self-Supervised Code Search Framework [22.214324677526132]
マルチグラニュラリティ自己監督型コントラスト学習コード検索フレームワーク(MGS$3$)について紹介する。まず、MGS$3$ は Supervised Multi-Granularity Representation Module (HMGR) を特徴としている。様々な粒度のコード検索ベンチマーク実験を行い、複数の粒度のコード検索タスクにおいて優れた性能を示すことを示す。
論文参考訳（メタデータ） (2025-05-30T06:49:39Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
GraphSearchNet: Enhancing GNNs via Capturing Global Dependency for Semantic Code Search [15.687959123626003]
我々は、効率よく正確なソースコード検索を可能にする新しいニューラルネットワークフレームワーク、GraphSearchNetを設計する。具体的には、BGGNNを用いてソースコードとクエリを2つのグラフにエンコードし、そのグラフの局所構造情報をキャプチャする。 JavaとPythonのデータセットでの実験は、GraphSearchNetが現在の最先端の作業よりもかなりのマージンで優れていることを示している。
論文参考訳（メタデータ） (2021-11-04T07:38:35Z)
Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文参考訳（メタデータ） (2021-07-02T12:08:19Z)
deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search [15.19181807445119]
ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。 C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
論文参考訳（メタデータ） (2021-03-24T06:57:44Z)
A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。 CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-06T04:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。