論文の概要: Multimodal Representation for Neural Code Search
- arxiv url: http://arxiv.org/abs/2107.00992v1
- Date: Fri, 2 Jul 2021 12:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 18:41:15.110103
- Title: Multimodal Representation for Neural Code Search
- Title(参考訳): ニューラルコード探索のためのマルチモーダル表現
- Authors: Jian Gu, Zimin Chen, Martin Monperrus
- Abstract要約: 本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 18.371048875103497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic code search is about finding semantically relevant code snippets for
a given natural language query. In the state-of-the-art approaches, the
semantic similarity between code and query is quantified as the distance of
their representation in the shared vector space. In this paper, to improve the
vector space, we introduce tree-serialization methods on a simplified form of
AST and build the multimodal representation for the code data. We conduct
extensive experiments using a single corpus that is large-scale and
multi-language: CodeSearchNet. Our results show that both our tree-serialized
representations and multimodal learning model improve the performance of neural
code search. Last, we define two intuitive quantification metrics oriented to
the completeness of semantic and syntactic information of the code data.
- Abstract(参考訳): 意味的なコード検索は、ある自然言語クエリのセマンティック関連コードスニペットを見つけることである。
最先端のアプローチでは、コードとクエリのセマンティックな類似性は、共有ベクトル空間におけるそれらの表現の距離として定量化される。
本稿では,ベクトル空間を改善するために,AST の簡易な形式を用いたツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
大規模なマルチ言語コーパスであるcodesearchnetを用いて,広範な実験を行う。
以上の結果から,本手法とマルチモーダル学習モデルの両方が,ニューラルコード探索の性能を向上させることが示された。
最後に,コードデータのセマンティック情報と構文情報の完全性に着目した2つの直感的定量化指標を定義する。
関連論文リスト
- Probing Semantic Grounding in Language Models of Code with
Representational Similarity Analysis [0.11470070927586018]
本稿では,コード言語モデルにおける意味的グラウンドリングの探索にRepresentational similarity Analysisを用いることを提案する。
我々は,IBM CodeNetデータセットのデータを用いて,意味的接地のためのCodeBERTモデルから表現を探索する。
コード中の意味的摂動による実験により、CodeBERTは意味論的に正しいコードと正しくないコードとをしっかりと区別できることがわかった。
論文 参考訳(メタデータ) (2022-07-15T19:04:43Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。