論文の概要: Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets
- arxiv url: http://arxiv.org/abs/2305.11625v2
- Date: Mon, 27 May 2024 05:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:38:03.880462
- Title: Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets
- Title(参考訳): コードによる検索:新しいSearchBySnippetデータセットとコードスニペットによる検索のためのSnippeR検索モデル
- Authors: Ivan Sedykh, Dmitry Abulkhanov, Nikita Sorokin, Sergey Nikolenko, Valentin Malykh,
- Abstract要約: コードスニペットをクエリとして使用して、バグフィックス命令やコードサンプルを探すことは、従来の技術ではカバーされていない自然なユースケースである、と私たちは主張する。
StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した新しいSearchBySnippetデータセットを提案する。
- 参考スコア(独自算出の注目度): 7.948526577271158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code search is an important and well-studied task, but it usually means searching for code by a text query. We argue that using a code snippet (and possibly an error traceback) as a query while looking for bugfixing instructions and code samples is a natural use case not covered by prior art. Moreover, existing datasets use code comments rather than full-text descriptions as text, making them unsuitable for this use case. We present a new SearchBySnippet dataset implementing the search-by-code use case based on StackOverflow data; we show that on SearchBySnippet, existing architectures fall short of a simple BM25 baseline even after fine-tuning. We present a new single encoder model SnippeR that outperforms several strong baselines on SearchBySnippet with a result of 0.451 Recall@10; we propose the SearchBySnippet dataset and SnippeR as a new important benchmark for code search evaluation.
- Abstract(参考訳): コード検索は重要でよく研究されているタスクであるが、通常はテキストクエリによるコード検索を意味する。
コードスニペット(およびおそらくエラートレースバック)をクエリとして使用して、バグフィックス命令やコードサンプルを探すことは、過去の技術でカバーされていない自然なユースケースである、と私たちは主張する。
さらに、既存のデータセットでは、テキストとしてのフルテキスト記述ではなく、コードコメントを使用しているため、このユースケースには適さない。
StackOverflowデータに基づく検索・バイ・コード・ユースケースを実装した新しいSearchBySnippetデータセットを提案する。
我々は,新しい単一エンコーダモデルであるSnippeRを提案する。このモデルでは,SearchBySnippetの強いベースラインを0.451 Recall@10で上回り,コード検索評価のための新しい重要なベンチマークとしてSearchBySnippetデータセットとSnippeRを提案する。
関連論文リスト
- CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - CoSQA+: Enhancing Code Search Dataset with Matching Code [27.10957318333608]
CoSQA+は、複数の適切なコードで高品質なクエリをペアリングする。
CoSQA+はCoSQAよりも優れた品質を示している。
我々は1対Nのコード検索性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-06-17T14:34:14Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストとKのガベージベース上での大規模半構造検索ベンチマークSTARKを開発する。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野を対象とする。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Accelerating Code Search with Deep Hashing and Code Classification [64.3543949306799]
コード検索とは、自然言語クエリに基づいてソースコードコーパスから再利用可能なコードスニペットを検索することである。
深層ハッシュとコード分類を用いたコード検索を高速化する新しい手法CoSHCを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:05:30Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - Search4Code: Code Search Intent Classification Using Weak Supervision [5.441318460204245]
本稿では,C# および Java プログラミング言語の検索クエリにおけるコード検索意図を検出するための弱監督に基づくアプローチを提案する。
我々は,BingのWeb検索エンジンから100万以上のクエリをマイニングした実世界のデータセット上で,いくつかのベースラインに対するアプローチを評価する。
また、BingのWeb検索エンジンから抽出されたコード検索クエリの大規模なリアルタイムデータセットであるSearch4Codeもリリースしています。
論文 参考訳(メタデータ) (2020-11-24T08:06:53Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - Neural Code Search Revisited: Enhancing Code Snippet Retrieval through
Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。
翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文 参考訳(メタデータ) (2020-08-27T15:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。