論文の概要: Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval
Model for Searching by Code Snippets
- arxiv url: http://arxiv.org/abs/2305.11625v1
- Date: Fri, 19 May 2023 12:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 14:38:40.418966
- Title: Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval
Model for Searching by Code Snippets
- Title(参考訳): コードによる検索:新しいSearchBySnippetデータセットとコードスニペットによる検索のためのSnippeR検索モデル
- Authors: Ivan Sedykh, Dmitry Abulkhanov, Nikita Sorokin, Sergey Nikolenko,
Valentin Malykh
- Abstract要約: コードスニペットをクエリとして使用し、バグフィックス命令とコードサンプルによる回答を探すことは、既存のアプローチではカバーされていない自然なユースケースである、と私たちは主張する。
本稿では,新しい単一エンコーダモデルSnippeRを提案する。
- 参考スコア(独自算出の注目度): 3.837857877152932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code search is an important task that has seen many developments in recent
years. However, previous attempts have mostly considered the problem of
searching for code by a text query. We argue that using a code snippet (and
possibly an associated traceback) as a query and looking for answers with
bugfixing instructions and code samples is a natural use case that is not
covered by existing approaches. Moreover, existing datasets use comments
extracted from code rather than full-text descriptions as text, making them
unsuitable for this use case. We present a new SearchBySnippet dataset
implementing the search-by-code use case based on StackOverflow data; it turns
out that in this setting, existing architectures fall short of the simplest
BM25 baseline even after fine-tuning. We present a new single encoder model
SnippeR that outperforms several strong baselines on the SearchBySnippet
dataset with a result of 0.451 Recall@10; we propose the SearchBySnippet
dataset and SnippeR as a new important benchmark for code search evaluation.
- Abstract(参考訳): コード検索は近年多くの発展を遂げてきた重要な課題である。
しかし、以前の試みでは、主にテキストクエリによるコード検索の問題を考慮していた。
私たちは、コードスニペット(およびおそらく関連するトレースバック)をクエリとして使用し、バグフィックス命令とコードサンプルによる回答を探すことは、既存のアプローチでカバーされていない自然なユースケースである、と論じています。
さらに、既存のデータセットはテキストとしてフルテキスト記述ではなく、コードから抽出されたコメントを使用するため、このユースケースには適さない。
そこで本研究では,StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した SearchBySnippet データセットを提案する。
我々は,新しい単一エンコーダモデルであるSnippeRを提案する。このモデルでは,SearchBySnippetデータセットの強いベースラインを0.451 Recall@10で上回り,コード検索評価のための新しい重要なベンチマークとしてSearchBySnippetデータセットとSnippeRを提案する。
関連論文リスト
- Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - Decoding a Neural Retriever's Latent Space for Query Suggestion [28.410064376447718]
本稿では,有意なクエリをその潜在表現から復号することが可能であること,また,潜在空間の正しい方向に移動すると,関連する段落を検索するクエリを復号することができることを示す。
クエリデコーダを用いて、MSMarcoのクエリ再構成の大規模な合成データセットを生成する。
このデータに基づいて、クエリー提案の適用のために擬似関連フィードバック(PRF)T5モデルを訓練する。
論文 参考訳(メタデータ) (2022-10-21T16:19:31Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Accelerating Code Search with Deep Hashing and Code Classification [64.3543949306799]
コード検索とは、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索することである。
深層ハッシュとコード分類を用いたコード検索を高速化する新しい手法CoSHCを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:05:30Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Search4Code: Code Search Intent Classification Using Weak Supervision [5.441318460204245]
本稿では,C# および Java プログラミング言語の検索クエリにおけるコード検索意図を検出するための弱監督に基づくアプローチを提案する。
我々は,BingのWeb検索エンジンから100万以上のクエリをマイニングした実世界のデータセット上で,いくつかのベースラインに対するアプローチを評価する。
また、BingのWeb検索エンジンから抽出されたコード検索クエリの大規模なリアルタイムデータセットであるSearch4Codeもリリースしています。
論文 参考訳(メタデータ) (2020-11-24T08:06:53Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。