論文の概要: BERT2Code: Can Pretrained Language Models be Leveraged for Code Search?
- arxiv url: http://arxiv.org/abs/2104.08017v1
- Date: Fri, 16 Apr 2021 10:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:17:41.030889
- Title: BERT2Code: Can Pretrained Language Models be Leveraged for Code Search?
- Title(参考訳): BERT2Code: 事前訓練された言語モデルはコード検索に利用できるか?
- Authors: Abdullah Al Ishtiaq, Masum Hasan, Md. Mahim Anjum Haque, Kazi Sajeed
Mehrab, Tanveer Muttaqueen, Tahmid Hasan, Anindya Iqbal, Rifat Shahriyar
- Abstract要約: 我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
- 参考スコア(独自算出の注目度): 0.7953229555481884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Millions of repetitive code snippets are submitted to code repositories every
day. To search from these large codebases using simple natural language queries
would allow programmers to ideate, prototype, and develop easier and faster.
Although the existing methods have shown good performance in searching codes
when the natural language description contains keywords from the code, they are
still far behind in searching codes based on the semantic meaning of the
natural language query and semantic structure of the code. In recent years,
both natural language and programming language research communities have
created techniques to embed them in vector spaces. In this work, we leverage
the efficacy of these embedding models using a simple, lightweight 2-layer
neural network in the task of semantic code search. We show that our model
learns the inherent relationship between the embedding spaces and further
probes into the scope of improvement by empirically analyzing the embedding
methods. In this analysis, we show that the quality of the code embedding model
is the bottleneck for our model's performance, and discuss future directions of
study in this area.
- Abstract(参考訳): 何百万もの反復的なコードスニペットが毎日コードリポジトリに提出されます。
単純な自然言語クエリを使ってこれらの大規模なコードベースから検索すると、プログラマはより簡単かつ迅速にアイデア、プロトタイプ、開発できる。
既存の手法は、自然言語記述がコードからのキーワードを含む場合、検索コードでは優れた性能を示してきたが、自然言語クエリの意味とコードの意味構造に基づく検索コードでは、まだはるかに遅れている。
近年、自然言語とプログラミング言語の研究コミュニティは、ベクトル空間にそれらを埋め込む技術を作成している。
本研究では,これらの埋め込みモデルの有効性を,セマンティックコード検索のタスクにおいて,シンプルで軽量な2層ニューラルネットワークを用いて活用する。
本モデルでは, 埋め込み空間間の固有関係を学習し, 埋め込み手法を実証的に解析することにより, 改良範囲を探索する。
本稿では,コード埋め込みモデルの品質がモデルの性能のボトルネックであることを示すとともに,この領域における研究の今後の方向性について考察する。
関連論文リスト
- Survey of Code Search Based on Deep Learning [11.94599964179766]
この調査は、コード検索、すなわち、あるクエリにマッチするコードを取得することに焦点を当てている。
複雑な意味情報を抽出できるディープラーニングは、この分野で大きな成功を収めている。
本稿では,最先端のディープラーニングに基づくコード検索を記述した新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-05-10T08:07:04Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - Neural Code Search Revisited: Enhancing Code Snippet Retrieval through
Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。
翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文 参考訳(メタデータ) (2020-08-27T15:39:09Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。