論文の概要: Search4Code: Code Search Intent Classification Using Weak Supervision
- arxiv url: http://arxiv.org/abs/2011.11950v3
- Date: Sat, 20 Mar 2021 15:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:42:56.680790
- Title: Search4Code: Code Search Intent Classification Using Weak Supervision
- Title(参考訳): Search4Code:Weak Supervisionを用いたコード検索インテント分類
- Authors: Nikitha Rao, Chetan Bansal and Joe Guan
- Abstract要約: 本稿では,C# および Java プログラミング言語の検索クエリにおけるコード検索意図を検出するための弱監督に基づくアプローチを提案する。
我々は,BingのWeb検索エンジンから100万以上のクエリをマイニングした実世界のデータセット上で,いくつかのベースラインに対するアプローチを評価する。
また、BingのWeb検索エンジンから抽出されたコード検索クエリの大規模なリアルタイムデータセットであるSearch4Codeもリリースしています。
- 参考スコア(独自算出の注目度): 5.441318460204245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developers use search for various tasks such as finding code, documentation,
debugging information, etc. In particular, web search is heavily used by
developers for finding code examples and snippets during the coding process.
Recently, natural language based code search has been an active area of
research. However, the lack of real-world large-scale datasets is a significant
bottleneck. In this work, we propose a weak supervision based approach for
detecting code search intent in search queries for C# and Java programming
languages. We evaluate the approach against several baselines on a real-world
dataset comprised of over 1 million queries mined from Bing web search engine
and show that the CNN based model can achieve an accuracy of 77% and 76% for C#
and Java respectively. Furthermore, we are also releasing Search4Code, the
first large-scale real-world dataset of code search queries mined from Bing web
search engine. We hope that the dataset will aid future research on code
search.
- Abstract(参考訳): 開発者はコード検索、ドキュメンテーション、デバッグ情報などの様々なタスクを検索する。
特に、Web検索は、コーディングプロセス中にコード例やスニペットを見つけるために、開発者が多用している。
近年,自然言語に基づくコード検索が研究の活発な領域となっている。
しかし、現実世界の大規模データセットの欠如は重大なボトルネックである。
本稿では,c# および java プログラミング言語の検索クエリにおけるコード検索インテントを検出するための,弱い監督に基づくアプローチを提案する。
我々は,BingのWeb検索エンジンから100万以上のクエリからなる実世界のデータセット上で,いくつかのベースラインに対するアプローチを評価し,CNNベースのモデルがC#とJavaに対してそれぞれ77%,76%の精度を達成可能であることを示す。
さらに、bing web search engineから発掘されたコード検索クエリの大規模な実世界データセットであるsearch4codeもリリースしています。
このデータセットが今後のコード検索研究に役立つことを願っている。
関連論文リスト
- DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets [7.948526577271158]
コードスニペットをクエリとして使用して、バグフィックス命令やコードサンプルを探すことは、従来の技術ではカバーされていない自然なユースケースである、と私たちは主張する。
StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した新しいSearchBySnippetデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-19T12:09:30Z) - Survey of Code Search Based on Deep Learning [11.94599964179766]
この調査は、コード検索、すなわち、あるクエリにマッチするコードを取得することに焦点を当てている。
複雑な意味情報を抽出できるディープラーニングは、この分野で大きな成功を収めている。
本稿では,最先端のディープラーニングに基づくコード検索を記述した新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-05-10T08:07:04Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Accelerating Code Search with Deep Hashing and Code Classification [64.3543949306799]
コード検索とは、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索することである。
深層ハッシュとコード分類を用いたコード検索を高速化する新しい手法CoSHCを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:05:30Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。