論文の概要: Retriever and Ranker Framework with Probabilistic Hard Negative Sampling
for Code Search
- arxiv url: http://arxiv.org/abs/2305.04508v1
- Date: Mon, 8 May 2023 07:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:52:25.194746
- Title: Retriever and Ranker Framework with Probabilistic Hard Negative Sampling
for Code Search
- Title(参考訳): 確率的ハード負サンプリングによるコード検索のための検索とランサーフレームワーク
- Authors: Hande Dong, Jiayi Lin, Yichong Leng, Jiawei Chen, Yutao Xie
- Abstract要約: 本稿では,クエリとコードのセマンティックマッチングを共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Rankerフレームワークを導入し、評価とオンラインサービスの有効性を高める。
- 参考スコア(独自算出の注目度): 11.39443308694887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Language Models (PLMs) have emerged as the state-of-the-art
paradigm for code search tasks. The paradigm involves pretraining the model on
search-irrelevant tasks such as masked language modeling, followed by the
finetuning stage, which focuses on the search-relevant task. The typical
finetuning method is to employ a dual-encoder architecture to encode semantic
embeddings of query and code separately, and then calculate their similarity
based on the embeddings.
However, the typical dual-encoder architecture falls short in modeling
token-level interactions between query and code, which limits the model's
capabilities. In this paper, we propose a novel approach to address this
limitation, introducing a cross-encoder architecture for code search that
jointly encodes the semantic matching of query and code. We further introduce a
Retriever-Ranker (RR) framework that cascades the dual-encoder and
cross-encoder to promote the efficiency of evaluation and online serving.
Moreover, we present a probabilistic hard negative sampling method to improve
the cross-encoder's ability to distinguish hard negative codes, which further
enhances the cascade RR framework. Experiments on four datasets using three
code PLMs demonstrate the superiority of our proposed method.
- Abstract(参考訳): 事前訓練言語モデル(PLM)は、コード検索タスクの最先端パラダイムとして登場した。
このパラダイムは、マスク付き言語モデリングなどの検索関連タスクに対する事前学習と、検索関連タスクに焦点を当てた微調整段階を含む。
典型的な微調整方法は、二重エンコーダアーキテクチャを用いて、クエリとコードのセマンティック埋め込みを個別にエンコードし、埋め込みに基づいてそれらの類似性を計算することである。
しかし、典型的なデュアルエンコーダアーキテクチャは、クエリとコードの間のトークンレベルの相互作用をモデル化するのに不足している。
本稿では,クエリとコードのセマンティックマッチングを協調的に符号化するコード検索のためのクロスエンコーダアーキテクチャを導入することにより,この制限に対処する新しい手法を提案する。
さらに,デュアルエンコーダとクロスエンコーダをカスケードし,評価の効率とオンラインサービスを促進するrecreatr-ranker(rr)フレームワークについても紹介する。
さらに,クロスエンコーダのハードネガティブコードの識別能力を向上させるための確率論的ハードネガティブサンプリング手法を提案し,カスケードRRフレームワークをさらに強化する。
3つのコードPLMを用いた4つのデータセット実験により,提案手法の優位性を実証した。
関連論文リスト
- Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。